|
|
|
| Вообщем можно сделать поиск по сайту, чтоб он не по файлам искал и не в бд, а как Яндекс или Рамблер вообщем поискового бота. Я думаю это не так сложно вырезать данные можно из тегов титлов, keywords, descriptions и уже из самого содержания. Есть единомышлиники? | |
|
|
|
|
|
|
|
для: JIEXA
(02.02.2005 в 23:54)
| | Т.е. чтобы он вроде индескацию сайта проводил и помещал всю информацию в единый скрипт? Обычно делают так - загружают первую страницу, например при помощи сокетов или просто функций работы с файлами, которые поддерживают работу по сети и анализируют его содержимое вытаскивая все ссылки. Если домен совпадает то они загружаются и операция повторяется (здесь нужно следить, чтобы не попасть в цикл, т.е. при регистрации новой ссылке сравнивать её с ранее проиндексироваными) и так несколько раз... попутно анализируется содержимое страниц. Только вот задача не благодарная для реализации на PHP, так как время исполнения скрипта обычно ограничено. | |
|
|
|
|
|
|
|
для: cheops
(03.02.2005 в 00:02)
| | Если скрипт будет добовлять все ссылки проиндексированных страниц в файл, то всё получится!
Пример:
Запускаешь скрипт индексации
Он работает 25 сек и запускает себя повторно, а так как ссылки проиндексированных страниц будут сохранены, то он начнёт не с проиндексированных.
Получится? | |
|
|
|
|
|
|
|
для: JIEXA
(03.02.2005 в 00:09)
| | Хм... может не получиться - так как это потенциальная дырка - можно сервер положить, наверное на большинстве хостов будут стараться не допустить этого. | |
|
|
|
|
|
|
|
для: cheops
(03.02.2005 в 01:40)
| | Блин а как сделать можно? | |
|
|
|
|
|
|
|
для: JIEXA
(03.02.2005 в 01:47)
| | Вообще-то такие штучки пишутся на С и запускаются без ограничения времени, можно так же повесить на cron массу скриптов, которые будут делать кусочки работы и начинать с того места где закончил работу предыдущий скрипт. | |
|
|
|