|
|
|
|
|
для: tricket
(07.09.2007 в 22:26)
| | kasmanaft - интересно то интересно, да зачем что то делать, что потом не будет востребовано. Если бы это не занимало уйму времени, то возможно и имело логическое завершение... А так... Не стоит у меня на паука )). Возможно в дальнейшем...
tricket - думаю нормальный, "жирненький" тарифный план у хостера и всё реально.
По моим прогнозам БД, примерно на 500 сайтов моего региона, могла бы занимать порядка 2Гб.
Основные нагрузки на сервер мною планировались на 5.00-7.00 утра (во время глобальных переиндексаций данных).
Ну а за сам поиск по БД я даже не волновался, т.к. планируемая площадка под поисковик имеет всего 300-500 уников в день, и я не думаю, что народ будет валом искать что то в районе... Хотя, чего в жизни не бывает.... | |
|
|
|
|
|
|
|
для: kasmanaft
(07.09.2007 в 16:21)
| | хостинг?) тут думаю сервером не ограничешься... | |
|
|
|
|
|
|
|
для: provodnik
(07.09.2007 в 16:17)
| | А модумать, как эти менюшки убрать? Рекламу попробовать повырезать... Форумы, гостевухи обходить...
Разве не интересно? | |
|
|
|
|
|
|
|
для: provodnik
(03.09.2007 в 18:17)
| | Вобщем реализовал я пробный, сырой вариант паука...
Тестил на локальном сервере, на своих проектах...
С 2-х порталов и 3-х "web-визиток" БД раздулась на 12 МБ.
Брал контент от <body> до </body>, ключевики, title, всё без HTML тэгов.
Очень много повторяющейся информации ( к примеру если у портала две крайние колонки подключаются на 5000 страниц, то менюшки, информеры и т.п. будут в каждой строке БД )...
Подумал-подумал, и решил отказаться от затеи, т.к. в регионе порядка 500 сайтов. А хост не резиновый... Ээх... | |
|
|
|
|
|
|
|
для: cheops
(03.09.2007 в 17:07)
| | Спасибо за советы. Я как раз думал, как избежать зацикливания.
Я вот думаю - как мой хостер к этому отнесётся :). К регулярным cron-сканированиям и мощной "перевалкой" информации...
Ээх, посмотрим, посмотрим...
А есть идеи по реализации релевантности страниц? | |
|
|
|
|
|
|
|
для: provodnik
(03.09.2007 в 16:08)
| | Только не забывайте md5-хэш страницы снимать, чтобы робот не зацикливался. Со страницы извлекайте все URL и переходите по ним (обязательно задайте максимальное количество таких переходов, чтобы опять же не зациклиться). | |
|
|
|
|
|
|
| Доброго времени суток.
Есть база городских сайтов. Хочется написать контекстный скрипт-поисковичек, который будет искать информацию. Не знаю, с чего начать...
Я думаю нуно поступить как - то так:
Заходить на каждый сайт (file_get_contents), копировать контент, предварительно как-то вырезая только нужную инфу и отбрасывая тэги, скрипты, картинки.
Записывать контент к себе в БД, попутно сортируя (метатэги, заголовки и т.п.).
И потом уже производить поиск по своей БД, выдавая контент с ссылкой на страницу, на которой он (контент) был найден...
Может уже кто-то реализовывал нечто подобное?
Заранее благодарен за советы... | |
|
|
|
|