|
|
|
| Пишу парсер, чтобы злобно каждыей день не долбился мой робот на хост и ненадоедал владельцам в последствии чего бы его заблочили :) какие меры можно предпринять, к примеру может можно сделать чтобы сбор информации происходил в определенный период и частями ? | |
|
|
|
|
|
|
|
для: sidPR
(14.06.2007 в 16:54)
| | Я думаю, что палят роботов по:
1) периодичности с точностью до секунды заходам
2) по заголовкам client. Если в нем написано, что это бот sidPR'a, то зашифроватьс я вряд ли получится.
Посему, предлагаю не парить мозг загрузкой страниц по частям, а просто выполнять скрипт в разное время и представляться IE6, например:) | |
|
|
|
|
|
|
|
для: SHAman
(14.06.2007 в 17:06)
| | а как предоставлятся IE6 ? | |
|
|
|
|
|
|
|
для: sidPR
(14.06.2007 в 18:36)
| | В USER_AGENT вставьте что-то вроде:
$_SERVER["USER_AGENT"] = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)";
|
| |
|
|
|
|
|
|
|
для: sidPR
(14.06.2007 в 18:36)
| | get_all_headers(); | |
|
|
|
|
|
|
|
для: Trianon
(14.06.2007 в 18:44)
| | а если скрипт выполняется очень долго как быть? что посоветуете ? | |
|
|
|
|
|
|
|
для: sidPR
(18.06.2007 в 16:59)
| | а) Отсчитывать время, писать в сессию состояние, перезапускать себя.
б) применять cron (чистый или web) | |
|
|
|
|
|
|
|
для: Trianon
(18.06.2007 в 17:11)
| | так крон он просто будет запускать скрипт ... а скрипт сам то оч долго выполнятся будет ? или когда через крон то ошибок PHP не должно возникнуть? | |
|
|
|