Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Программирование. Ступени успешной карьеры. Авторы: Кузнецов М.В., Симдянов И.В. PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум (новые сообщения вниз) Структурный форум

тема: Мини Яндекс или Как сделать сканера-паука городских ресурсов?

Сообщения:  [1-7] 

 
 автор: provodnik   (08.09.2007 в 23:43)   письмо автору
 
   для: tricket   (07.09.2007 в 22:26)
 

kasmanaft - интересно то интересно, да зачем что то делать, что потом не будет востребовано. Если бы это не занимало уйму времени, то возможно и имело логическое завершение... А так... Не стоит у меня на паука )). Возможно в дальнейшем...

tricket - думаю нормальный, "жирненький" тарифный план у хостера и всё реально.
По моим прогнозам БД, примерно на 500 сайтов моего региона, могла бы занимать порядка 2Гб.
Основные нагрузки на сервер мною планировались на 5.00-7.00 утра (во время глобальных переиндексаций данных).
Ну а за сам поиск по БД я даже не волновался, т.к. планируемая площадка под поисковик имеет всего 300-500 уников в день, и я не думаю, что народ будет валом искать что то в районе... Хотя, чего в жизни не бывает....

   
 
 автор: tricket   (07.09.2007 в 22:26)   письмо автору
 
   для: kasmanaft   (07.09.2007 в 16:21)
 

хостинг?) тут думаю сервером не ограничешься...

   
 
 автор: kasmanaft   (07.09.2007 в 16:21)   письмо автору
 
   для: provodnik   (07.09.2007 в 16:17)
 

А модумать, как эти менюшки убрать? Рекламу попробовать повырезать... Форумы, гостевухи обходить...
Разве не интересно?

   
 
 автор: provodnik   (07.09.2007 в 16:17)   письмо автору
 
   для: provodnik   (03.09.2007 в 18:17)
 

Вобщем реализовал я пробный, сырой вариант паука...
Тестил на локальном сервере, на своих проектах...
С 2-х порталов и 3-х "web-визиток" БД раздулась на 12 МБ.
Брал контент от <body> до </body>, ключевики, title, всё без HTML тэгов.
Очень много повторяющейся информации ( к примеру если у портала две крайние колонки подключаются на 5000 страниц, то менюшки, информеры и т.п. будут в каждой строке БД )...

Подумал-подумал, и решил отказаться от затеи, т.к. в регионе порядка 500 сайтов. А хост не резиновый... Ээх...

   
 
 автор: provodnik   (03.09.2007 в 18:17)   письмо автору
 
   для: cheops   (03.09.2007 в 17:07)
 

Спасибо за советы. Я как раз думал, как избежать зацикливания.
Я вот думаю - как мой хостер к этому отнесётся :). К регулярным cron-сканированиям и мощной "перевалкой" информации...
Ээх, посмотрим, посмотрим...

А есть идеи по реализации релевантности страниц?

   
 
 автор: cheops   (03.09.2007 в 17:07)   письмо автору
 
   для: provodnik   (03.09.2007 в 16:08)
 

Только не забывайте md5-хэш страницы снимать, чтобы робот не зацикливался. Со страницы извлекайте все URL и переходите по ним (обязательно задайте максимальное количество таких переходов, чтобы опять же не зациклиться).

   
 
 автор: provodnik   (03.09.2007 в 16:08)   письмо автору
 
 

Доброго времени суток.
Есть база городских сайтов. Хочется написать контекстный скрипт-поисковичек, который будет искать информацию. Не знаю, с чего начать...
Я думаю нуно поступить как - то так:
Заходить на каждый сайт (file_get_contents), копировать контент, предварительно как-то вырезая только нужную инфу и отбрасывая тэги, скрипты, картинки.
Записывать контент к себе в БД, попутно сортируя (метатэги, заголовки и т.п.).
И потом уже производить поиск по своей БД, выдавая контент с ссылкой на страницу, на которой он (контент) был найден...

Может уже кто-то реализовывал нечто подобное?
Заранее благодарен за советы...

   

Сообщения:  [1-7] 

Форум разработан IT-студией SoftTime
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования