Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Программирование. Ступени успешной карьеры. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Разное

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Безуспешная борьба с роботами
 
 автор: Владимир55   (06.03.2016 в 11:32)   письмо автору
 
 

Среди посетителей сайта замечен весьма активный робот с юзер-агентом

Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)


В сети многократно встречается рецепт запрета входа нежелательным посетителям путем директивных записей в файле .htaccess:

## USER-AGENT BANNING
SetEnvIfNoCase User-Agent "^MJ12bot" bad_bot

<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>


## USER IP BANNING
<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from majestic12.co.uk
</Limit> 


Я тоже воспользовался этим рецептом, но безуспешно - робот этих запретов даже не заметил!

Техподдержка хостинга долго уверяла, что все нормально а Апач гонит робота, не смотря на предоставленные логи, доказывающие его присутствие. Но потом среди работников ТП нашелся специалист, который сказал, что проблема в том, что сделанные мною директивы в принципе неверны.

По его мнению, в секции ## USER-AGENT BANNING нужно писать
SetEnvIfNoCase User-Agent ".*MJ12bot.*" bad_bot


Ибо в моем варианте работать и не должно.
Но это странно - у всех работает...

А секция ## USER IP BANNING, по его мнению, вообще бесполезна. И вместо неё нужно писать

RewriteEngine On
RewriteCond %{HTTP_REFERER} majestic12.co.uk [NC]
RewriteRule .* - [F]


И что-то я со всем этим уже совершенно запутался!

  Ответить  
 
 автор: cheops   (06.03.2016 в 13:47)   письмо автору
 
   для: Владимир55   (06.03.2016 в 11:32)
 

Специалист прав, судя по всему правило, которые вы нашли
SetEnvIfNoCase User-Agent "^MJ12bot" bad_bot

Применялось в те времена, когда бот использовал User-Agent, начинающийся со фразы "MJ12bot ...", ^ в регулярном выражении привязывает вас к началу строки. Поэтому он и предлагает вам изменить регулярное выражение.

  Ответить  
 
 автор: Владимир55   (06.03.2016 в 20:50)   письмо автору
 
   для: cheops   (06.03.2016 в 13:47)
 

Специалист прав

Похоже, что так и есть: ботов больше не замечено.

Кстати, согласно докам на Апач, в секции ## USER IP BANNING можно указывать только IP. Почему в примерах и инструкциях, гуляющих по сети, разрешается указывать домены, видимо, так и останется загадкой.

А как понимать вот эту запись, в чем её сущность?

RewriteEngine On 
RewriteCond %{HTTP_REFERER} majestic12.co.uk [NC] 
RewriteRule .* - [F]

  Ответить  
 
 автор: cheops   (08.03.2016 в 11:40)   письмо автору
 
   для: Владимир55   (06.03.2016 в 20:50)
 

Запретить все URL для посетителей, у которых в реферере будет majestic12.co.uk

  Ответить  
 
 автор: bnm   (12.03.2016 в 09:12)   письмо автору
 
   для: Владимир55   (06.03.2016 в 11:32)
 

Блокируйте браузер средствами РНР. Если пятая версия, то воспользуйтесь функцией stripos, если более ранние, то strpos.

$browser = $_SERVER['HTTP_USER_AGENT'];
$maj = stripos($browser, "majestic");
if ($maj) exit;

Если хотите блокировать по IP, то используйте функцию strstr (правда, она ресурсоёмкая).
Если на хостинге более новая версия РНР, то блокируйте в зависимости от принадлежности к стране по GEOIP, сейчас это модно.
Majestic перестанет посещать сайт, а заинтересованные лица проботают его с других IP-адресов и под другими вывесками типа:
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования