Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: как поймать робота
 
 автор: кен   (12.05.2005 в 16:29)
 
 

Не подскажет ли кто надёжный способ отсеять из статистики посещений роботов и прочую "нежить". Со старыми знакомыми (Яндексами-Рамблерами) всё ясно. А как ВСЕХ ИХ ОТЛОВИТЬ? Хотелось бы знать, сколько живых гостей заходит на сайт.

   
 
 автор: cheops   (12.05.2005 в 20:46)   письмо автору
 
   для: кен   (12.05.2005 в 16:29)
 

В этом случае луше не роботов отлавливать, а посетителей :))), так как живые люди в большинстве своём используют Internet Explorer, Opera, на худой конец Netscape Navigator (процент оставшихся браузеров мал, но в принципе и их забить можно) - вам остаётся только подсчитать число пользователей чей $_SERVER['USER_AGENT'] будет похож на пользователя этих браузеров - все остальные будут net-тварьми или пользователями экзоотическими браузерами.

PS Многие менеджеры закачек подделывают свой USER_AGENT, чтобы их считали за активных посетителей, поэтому статистика будет оценочной.

   
 
 автор: Artem S.   (13.05.2005 в 07:49)   письмо автору
 
   для: кен   (12.05.2005 в 16:29)
 

Можно использовать cookie. Если удастся установить cookie, то это 98% обычный пользователь. Можно использовать JS (эффект будет хуже, но это оценка происходит если пользователь просмотрел 1 страничку, а через cookie надо хотя бы 2)

И т.д.

P.S. 2cheops Сейчас очень много пользователей Mozilla FireFox, а ваш счетчик определяет их как "Другие"...

   
 
 автор: cheops   (13.05.2005 в 12:41)   письмо автору
 
   для: Artem S.   (13.05.2005 в 07:49)
 

Пример USER_AGENT не подбросите?

   
 
 автор: Loki   (13.05.2005 в 16:43)   письмо автору
 
   для: cheops   (13.05.2005 в 12:41)
 

не это имеется ввиду?
Mozilla/5.0 (X11; U; FreeBSD i386; en-US; rv:1.7.5) Gecko/20050317 Firefox/1.0

А еще у меня вот такой есть:)
Bond, James Bond (version 0.07)

   
 
 автор: Artem S.   (14.05.2005 в 07:25)   письмо автору
 
   для: Loki   (13.05.2005 в 16:43)
 

>> Bond, James Bond (version 0.07)
Это Яндекс робот. Отлавливает нарушителей.

   
 
 автор: кен   (13.05.2005 в 17:20)
 
   для: cheops   (13.05.2005 в 12:41)
 

Вот примеры Gecko-юзагентов:
Mozilla/5.0 (Windows; U; Windows NT 5.1; rv:1.7.3) Gecko/20040917 Firefox/0.10.1
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.5) Gecko/20041107 Firefox/1.0
Mozilla/5.0 (Windows; U; Windows NT 5.1; ru-RU; rv:1.5) Gecko/20031007 Firebird/0.7
Mozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:1.5) Gecko/20031007 MultiZilla/1.6.4.0b
Mozilla/5.0 (Windows; U; Win98; ru-RU; rv:1.5) Gecko/20031006

Среди них фраза "Netscape" встречается 1 раз из 20! В моём счётчике уже давно третьим браузером после ИЕ и Оперы идёт именно Gecko, а не Netscape.
В PowerCounter, пожалуй, тоже стоило бы делать так.

Кстати, раз речь зашла об юзагентах. Вот такие штуки в моей статистике встречаются часто (с разными вариантами хх.хх.хх). Причём для Opera и Gecko не бывают. А что они означают?

SV1 - пример: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
.NET CLR х.х.хххх - пример: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)
MRA х.хх (build ххххх) - пример: Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0; MRA 4.0 (build 00768))
MyIE2 - пример: Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0; MyIE2)
DigExt - пример: Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)
FunWebProducts - пример: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; FunWebProducts)
Maxthon - пример: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Maxthon)
Alexa Toolbar - пример: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Alexa Toolbar)
Q312461 - пример: Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Q312461)
Hotbar х.х.х.х - пример: Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0; Hotbar 4.4.2.0)
{буквенно-цифровой код} - пример: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; {8FB10B28-0269-4280-9D0E-807596990B48})

Часто встречаются в разных сочетаниях:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; MRA 2.55 (build 00423); .NET CLR 1.0.3705; .NET CLR 1.1.4322)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Q312461; MyIE2; .NET CLR 1.1.4322)
Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0; DigExt; MRA 4.0 (build 00768); Hotbar 4.5.1.0)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; MRA 2.55 (build 00423); Maxthon; .NET CLR 1.0.3705; .NET CLR 1.1.4322)

Вообще чуднЫх юзагентов много. Но эта парочка частенько появляется. Кто они?:
Mozilla/3.0 (compatible; Indy Library)
GOON

   
 
 автор: кен   (13.05.2005 в 17:24)
 
   для: кен   (13.05.2005 в 17:20)
 

Прошу модератора удалить первый дубль и это сообщение - чего-то я поспешил!

   
 
 автор: cheops   (13.05.2005 в 20:59)   письмо автору
 
   для: кен   (13.05.2005 в 17:20)
 

.NET CLR х.х.хххх - установелна среда исполнения .NET такой-то версии.
MyIE2 - это тоже альтернативный браузер MyIE
Q312461 - так обычно обозначают пакет исправления в Microsoft, значит на клиенте он установлен.

PS Вообще ряд браузеров позволяют написать всё что угодно в качестве USER_AGENT (например, Opera), как впрочем и ряд приложений, например, различные менеджеры закачек... хотите у вас в USER_AGENT появится c "cheops" появится :)))

   
 
 автор: кен   (13.05.2005 в 17:40)   письмо автору
 
   для: Artem S.   (13.05.2005 в 07:49)
 

По юзагентам нехороши - их действительно частенько подделывают. Куки неудобно также из-за возможности их отключения. А вот почему с помощью JS будет хуже? Я вообще-то так и собирался. Неужели некоторые роботы уже и JS кушают?

   
 
 автор: Akira   (13.05.2005 в 17:47)   письмо автору
 
   для: кен   (13.05.2005 в 17:40)
 

Хм, а не проше сделать так , что бы было возможно самому добавлять USER_AGENT?

   
 
 автор: $OMEGA   (13.05.2005 в 19:09)   письмо автору
 
   для: Akira   (13.05.2005 в 17:47)
 

Добавлением роботов, добиться чего либо очень сложно! Роботов уж очень много. Я раделяю сначала путем определения агента: если opera - значит человек, если mozilla и строку нельзя разбить на массив используя разделитель: http:// - значит тоже чел, все остальные роботы.

   
 
 автор: кен   (13.05.2005 в 19:56)   письмо автору
 
   для: $OMEGA   (13.05.2005 в 19:09)
 

Насчёт Оперы соглашусь, а вот mozilla и разбитие строки разделителем "http://"... Сомневаюсь. Во-первых, это вроде не роботы:

Mozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:1.0.1; http://www.aeroion.ru) Gecko/20020823 Netscape/7.0
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; http://www.aeroion.ru)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; http://www.aeroion.ru)

С оперой тоже похожий зашёл:
Opera/8.00 (Windows 98; U; ru; http://www.aeroion.ru)

Во-вторых, здесь и mozilla есть, и "http://" нет, а всё же на людей не очень похоже:
Mozilla/3 (Unix; ListChecker v0.03)
Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 4.0; obot)

   
 
 автор: $OMEGA   (13.05.2005 в 20:38)   письмо автору
 
   для: кен   (13.05.2005 в 19:56)
 

Сомневаюсь. Во-первых,
>это вроде не роботы:
>
>Mozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:1.0.1;
>http://www.aeroion.ru) Gecko/20020823 Netscape/7.0
>Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0;
>http://www.aeroion.ru)
>Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1;
>http://www.aeroion.ru)
>
>С оперой тоже похожий зашёл:
>Opera/8.00 (Windows 98; U; ru; http://www.aeroion.ru)

У них помоему паук стоит! Для простых продавцов ионизаторов не надо модалки выбрасывать!

>Во-вторых, здесь и mozilla есть, и "http://" нет,
>а всё же на людей не очень похоже:
>Mozilla/3 (Unix; ListChecker v0.03)
>Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 4.0; obot)

Но никто не обещал универсального решения! Просто на мой взгляд этот путь легче постоянного добавления новых роботов в массив. Если некоторые из них прорвутся в статистику их процент будет малым.

   
 
 автор: cheops   (14.05.2005 в 13:03)   письмо автору
 
   для: кен   (13.05.2005 в 17:40)
 

JS тоже отключают, правда не чаще, чем cookie

   
 
 автор: $OMEGA   (14.05.2005 в 14:09)   письмо автору
 
   для: cheops   (14.05.2005 в 13:03)
 

Плюс JS - очень сильно отнимает релевантность в поисковиках, если есть желание болтаться в первых строках поисковых запросов, про скрипты лучше забыть! И на мой взгляд, менее одного процента прорвавшихся роботов - общую картину статистики никак не меняют, поднимай посещаемость - процент снизится!

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования