Мини Яндекс или Как сделать сканера-паука городских ресурсов?

Главная страница

Создание сайтов

Блог Кузнецова М.В.

Статьи о PHP

PHP-скрипты

Статьи об Apache

Форум С++

Консультации

Форум "Про Жизнь"

Форум:	Форум PHP	Форум Apache	Форум Регулярные Выражения	Форум MySQL	HTML+CSS+JavaScript	Форум Flash	Разное
Новые темы:	0	0	0	0	0	0	0

Здравствуйте, Посетитель!

вид форума:

тема: Мини Яндекс или Как сделать сканера-паука городских ресурсов?

следующая тема

предыдущая тема

Сообщения: [1-7]

	автор: provodnik (08.09.2007 в 23:43) письмо автору
	для: tricket (07.09.2007 в 22:26)
	kasmanaft - интересно то интересно, да зачем что то делать, что потом не будет востребовано. Если бы это не занимало уйму времени, то возможно и имело логическое завершение... А так... Не стоит у меня на паука )). Возможно в дальнейшем... tricket - думаю нормальный, "жирненький" тарифный план у хостера и всё реально. По моим прогнозам БД, примерно на 500 сайтов моего региона, могла бы занимать порядка 2Гб. Основные нагрузки на сервер мною планировались на 5.00-7.00 утра (во время глобальных переиндексаций данных). Ну а за сам поиск по БД я даже не волновался, т.к. планируемая площадка под поисковик имеет всего 300-500 уников в день, и я не думаю, что народ будет валом искать что то в районе... Хотя, чего в жизни не бывает....

	автор: tricket (07.09.2007 в 22:26) письмо автору
	для: kasmanaft (07.09.2007 в 16:21)
	хостинг?) тут думаю сервером не ограничешься...

	автор: kasmanaft (07.09.2007 в 16:21) письмо автору
	для: provodnik (07.09.2007 в 16:17)
	А модумать, как эти менюшки убрать? Рекламу попробовать повырезать... Форумы, гостевухи обходить... Разве не интересно?

	автор: provodnik (07.09.2007 в 16:17) письмо автору
	для: provodnik (03.09.2007 в 18:17)
	Вобщем реализовал я пробный, сырой вариант паука... Тестил на локальном сервере, на своих проектах... С 2-х порталов и 3-х "web-визиток" БД раздулась на 12 МБ. Брал контент от <body> до </body>, ключевики, title, всё без HTML тэгов. Очень много повторяющейся информации ( к примеру если у портала две крайние колонки подключаются на 5000 страниц, то менюшки, информеры и т.п. будут в каждой строке БД )... Подумал-подумал, и решил отказаться от затеи, т.к. в регионе порядка 500 сайтов. А хост не резиновый... Ээх...

	автор: provodnik (03.09.2007 в 18:17) письмо автору
	для: cheops (03.09.2007 в 17:07)
	Спасибо за советы. Я как раз думал, как избежать зацикливания. Я вот думаю - как мой хостер к этому отнесётся :). К регулярным cron-сканированиям и мощной "перевалкой" информации... Ээх, посмотрим, посмотрим... А есть идеи по реализации релевантности страниц?

	автор: cheops (03.09.2007 в 17:07) письмо автору
	для: provodnik (03.09.2007 в 16:08)
	Только не забывайте md5-хэш страницы снимать, чтобы робот не зацикливался. Со страницы извлекайте все URL и переходите по ним (обязательно задайте максимальное количество таких переходов, чтобы опять же не зациклиться).

	автор: provodnik (03.09.2007 в 16:08) письмо автору
	Доброго времени суток. Есть база городских сайтов. Хочется написать контекстный скрипт-поисковичек, который будет искать информацию. Не знаю, с чего начать... Я думаю нуно поступить как - то так: Заходить на каждый сайт (file_get_contents), копировать контент, предварительно как-то вырезая только нужную инфу и отбрасывая тэги, скрипты, картинки. Записывать контент к себе в БД, попутно сортируя (метатэги, заголовки и т.п.). И потом уже производить поиск по своей БД, выдавая контент с ссылкой на страницу, на которой он (контент) был найден... Может уже кто-то реализовывал нечто подобное? Заранее благодарен за советы...

Сообщения: [1-7]

Форум разработан IT-студией SoftTime