Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Предлогаю начать создание скрипта поиска по сайту
 
 автор: JIEXA   (02.02.2005 в 23:54)   письмо автору
 
 

Вообщем можно сделать поиск по сайту, чтоб он не по файлам искал и не в бд, а как Яндекс или Рамблер вообщем поискового бота. Я думаю это не так сложно вырезать данные можно из тегов титлов, keywords, descriptions и уже из самого содержания. Есть единомышлиники?

   
 
 автор: cheops   (03.02.2005 в 00:02)   письмо автору
 
   для: JIEXA   (02.02.2005 в 23:54)
 

Т.е. чтобы он вроде индескацию сайта проводил и помещал всю информацию в единый скрипт? Обычно делают так - загружают первую страницу, например при помощи сокетов или просто функций работы с файлами, которые поддерживают работу по сети и анализируют его содержимое вытаскивая все ссылки. Если домен совпадает то они загружаются и операция повторяется (здесь нужно следить, чтобы не попасть в цикл, т.е. при регистрации новой ссылке сравнивать её с ранее проиндексироваными) и так несколько раз... попутно анализируется содержимое страниц. Только вот задача не благодарная для реализации на PHP, так как время исполнения скрипта обычно ограничено.

   
 
 автор: JIEXA   (03.02.2005 в 00:09)   письмо автору
 
   для: cheops   (03.02.2005 в 00:02)
 

Если скрипт будет добовлять все ссылки проиндексированных страниц в файл, то всё получится!
Пример:
Запускаешь скрипт индексации
Он работает 25 сек и запускает себя повторно, а так как ссылки проиндексированных страниц будут сохранены, то он начнёт не с проиндексированных.
Получится?

   
 
 автор: cheops   (03.02.2005 в 01:40)   письмо автору
 
   для: JIEXA   (03.02.2005 в 00:09)
 

Хм... может не получиться - так как это потенциальная дырка - можно сервер положить, наверное на большинстве хостов будут стараться не допустить этого.

   
 
 автор: JIEXA   (03.02.2005 в 01:47)   письмо автору
 
   для: cheops   (03.02.2005 в 01:40)
 

Блин а как сделать можно?

   
 
 автор: cheops   (03.02.2005 в 13:14)   письмо автору
 
   для: JIEXA   (03.02.2005 в 01:47)
 

Вообще-то такие штучки пишутся на С и запускаются без ограничения времени, можно так же повесить на cron массу скриптов, которые будут делать кусочки работы и начинать с того места где закончил работу предыдущий скрипт.

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования