Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Разное

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Что за странные роботы стали у Гугле
 
 автор: добряк   (16.03.2013 в 00:50)   письмо автору
 
 

Здравствуйте, подскажите если кто сталкивался или может объяснить
В однм месте
66.249.75.180 | Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
66.249.75.180 | Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_1 like Mac OS X; en-us) AppleWebKit/532.9 (KH
В другом случае

Как понять? Второй это кто?

  Ответить  
 
 автор: Владимир55   (16.03.2013 в 11:52)   письмо автору
 
   для: добряк   (16.03.2013 в 00:50)
 

Это смартфонный user-agent Googlebot-Mobile.

Запущен, вроде бы, в 2011 года.

  Ответить  
 
 автор: добряк   (16.03.2013 в 12:06)   письмо автору
 
   для: Владимир55   (16.03.2013 в 11:52)
 

Вот спасибо, вы опять проявили себя эрудитом в передовых идеях.

Его как считать, роботом или человеком.
Дело в том что их у меня стало много, и я не знаю уже где роботы, где люди

Кстати там еще какие то есть. Где бы узнать как их отделять от людей?

Я еще хотел спросить. В мастерской Гугла, есть место где можно указать тип робота для обхода.
Вы не знаете насколько это принципиально

  Ответить  
 
 автор: Владимир55   (16.03.2013 в 12:31)   письмо автору
 
   для: добряк   (16.03.2013 в 12:06)
 

Я ппошел по такому пути: основным роботам доступ открыт, а всем остальным, включая людей, роботы сервисов и малозначимых поисковиков, не более 10-15 страниц.

  Ответить  
 
 автор: добряк   (16.03.2013 в 12:36)   письмо автору
 
   для: Владимир55   (16.03.2013 в 12:31)
 

Так как отделить мух от бутерброда, все время новый приток ботов

  Ответить  
 
 автор: Владимир55   (16.03.2013 в 12:46)   письмо автору
 
   для: добряк   (16.03.2013 в 12:36)
 

Полагаю, что для этого пришлось бы постоянно следить за сообщениями о появлении новых роботов. Для меня это слишком трудоемко, поэтому я выбрал такое решение.

Да и зачем мне эти роботы, если с их поисковых систем мизерное количество посетителей?

В общем, полного списка роботов, действующих на сегодняшний день, я не знаю.

  Ответить  
 
 автор: добряк   (16.03.2013 в 14:20)   письмо автору
 
   для: Владимир55   (16.03.2013 в 12:46)
 

Меня в этом случае, именно сейчас, не роботы интересуют, а люди.
Мне нужна геометрия перемещения по сайту людей, на чем они цепляются и где они....
Ну дальше понятно... не писать же тут курс лекций о маркетинге, все написано давно и в потексте контекста подразумевается

На сегодня и на сейчас
iOS iPad - 7%
Android - 4%
iOS iPhone -4%
Другие - 7%

Эти другие роботы лазают как раз где часы и, заказы растут. 1 часики стоят 3 000 - 5 000 00

В мае 2012г, у нас курьеров убили, парня и девчонку, в машине, за часы стоимостью в 400 000 р.
Это между прочим, к слову и не по делу, можно пропустить последнее

  Ответить  
 
 автор: Владимир55   (16.03.2013 в 14:39)   письмо автору
 
   для: добряк   (16.03.2013 в 14:20)
 

Ваша идея понятна, но чтобы выяснить движение людей, надо из общего потока посетителей вычленить роботов и удалить их маршруты из результатов анализа. А для этого надо знать всех роботов, которые действуют в сети в данный момент.

Конкретно мне полный список роботов на сегодняшний день неизвестен. К тому же, их перечень не только постоянно растет, но и известные роботы меняют обличье, так что едва ли такой подход имеет точное решение. А приблизительное решение я уже предлагал - заблокировать всех, кто смотрит слишком много страниц, и при этом не является роботом основных поисковых систем. Тогда останутся только люди (почти).

Ничего другого я предложить не могу.

  Ответить  
 
 автор: добряк   (16.03.2013 в 14:48)   письмо автору
 
   для: Владимир55   (16.03.2013 в 14:39)
 

Разумно. Помню даже вы там про ограничения писали.
С учетом веяний времени, что их все больше и больше будет, хороших и дурных, добрых и злых, ( наверное плохих, конечно, будет больше) самое разумное у вас решение для этого случая.

Но я не так сказал,не совсем так, не совсем нужна геометрия, а где они кучкуются и где они возникают?
Хотя после вашего здравомыслящего рассуждения, наверное вопросов не осталось

  Ответить  
 
 автор: Владимир55   (16.03.2013 в 15:09)   письмо автору
 
   для: добряк   (16.03.2013 в 14:48)
 

"Эти другие роботы лазают как раз где часы и, заказы растут. "

Кстати, область заказа вообще не должна быть доступна для роботов, если ведется статистика кликов, продаж и т.п. Для этого должны быть исключены ссылки, по которым может пройти робот. Например, средствами Ajax.

  Ответить  
 
 автор: добряк   (16.03.2013 в 16:05)   письмо автору
 
   для: Владимир55   (16.03.2013 в 15:09)
 

Хочу поставить полноиндексный поиск с мофологическим анализом и исправлением ошибок.
Иначе, нужен результат: "Какой бы дурацкий запрос из идиотских слов не дал пользователь или робот(база подвисает от этого) , система исправляла на существющие слова и давала бы вразуметельный ответ.

  Ответить  
 
 автор: Владимир55   (16.03.2013 в 16:19)   письмо автору
 
   для: добряк   (16.03.2013 в 16:05)
 

Очень интересная идея!

Можете раскрыть её поподробнее?

  Ответить  
 
 автор: добряк   (16.03.2013 в 17:14)   письмо автору
 
   для: Владимир55   (16.03.2013 в 16:19)
 

Мне почему то смешно стало. Извините. Или вы надо мной смеетесь.
Ну ведь у гугла и яндекса и у других каждый день, если вы ввели с ошибкой слова он исправляет и ищет другие.
Возможно вы имели ввиду......
Вы пошутили наверное или я чего то не понял

  Ответить  
 
 автор: Владимир55   (16.03.2013 в 17:20)   письмо автору
 
   для: добряк   (16.03.2013 в 17:14)
 

Нет, я вполне серьезно.

Вот это привлекло мое внимание:

"Какой бы дурацкий запрос из идиотских слов не дал пользователь или робот ... , система исправляла на существющие слова и давала бы вразуметельный ответ"

Как Вы намерены исправлять запросы робота? Или подстраиваться под них?

  Ответить  
 
 автор: добряк   (16.03.2013 в 17:36)   письмо автору
 
   для: Владимир55   (16.03.2013 в 17:20)
 

я много ошибок делаю сейчас при написании, извините, глаза болят, устали от монитора
Надо было написать
полнотекстовый поиск с морфологическим анализом
вместо
полноиндексный поиск с морфологическим анализом

Простите, случайно ошибся, надо отдохнуть

Как Вы намерены исправлять запросы робота? Или подстраиваться под них?

По индексированным словам и морфологической близости
Механизм простой, но рутинный, по составлению индексного файла
На самом деле много готовых , платных и бесплатных, с рекламой и без.
Можно самому написать, но сейчас не до сук, надо поднять свой и 4 штуки влить, это 1-2 недели уйдет.
А готовые, на свежую голову можно воткнуть за 1-2 дня, но и там и там отслеживать надо.

  Ответить  
 
 автор: добряк   (16.03.2013 в 17:42)   письмо автору
 
   для: Владимир55   (16.03.2013 в 17:20)
 

У меня с утра не работает под денвером strtolower() и мне чего то надоело дурью маятся.
Остальные lcfirst() ... так же не работают.
Пойду погуляю на воздух

http://ru.wikipedia.org/wiki/Sphinx_(поисковая_система)- считается лучшей
Можно свой на на php, но скорость не та.
У меня года два валяется без дела

  Ответить  
 
 автор: добряк   (16.03.2013 в 19:08)   письмо автору
 
   для: Владимир55   (16.03.2013 в 17:20)
 

.Когда банишь, куда можно отправить робота, кроме exit.

http://100nt.ru/board/index.php/topic/20004-%D0%B1%D0%BE%D1%80%D1%8C%D0%B1%D0%B0-%D1%81-ahrefsbot/
Сайт находится на не бесплатном хостинге, но все же падает от этого бота (AhrefsBot) . Достал уже флудить
Через .htaccess блокировать его айпи не получается.

  Ответить  
 
 автор: добряк   (17.03.2013 в 12:34)   письмо автору
 
   для: Владимир55   (16.03.2013 в 17:20)
 

Вариант различать робота от человека

getenv("HTTP_REFERER"); // получаем URL, с которого пришёл посетитель
Если getenv("HTTP_REFERER") пустое занчение, то робот

Проблема закладок, URL набранных вручную или ссылка на компе
Тогда добавить cooki, если добавляется, то человек.

  Ответить  
 
 автор: Sfinks   (17.03.2013 в 13:25)   письмо автору
 
   для: добряк   (17.03.2013 в 12:34)
 

Умный робот передает и реферера и куки.

  Ответить  
 
 автор: добряк   (17.03.2013 в 14:01)   письмо автору
 
   для: Sfinks   (17.03.2013 в 13:25)
 

В .htaccess воткнул

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AhrefsBot


Через некоторое время Сервак показывает ошибку 500.
Ждал, ждал, потом удалил .htaccess - моментально все заработало

Вопрос, как банишь ботов?

  Ответить  
 
 автор: cheops   (18.03.2013 в 20:57)   письмо автору
 
   для: добряк   (17.03.2013 в 14:01)
 

После RewriteCond должно быть RewriteRule, так как RewriteCond задает лишь условие для выполнения последущего RewriteRule.

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования