Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В. PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Система мониторинга позиций сайта в поисковых системах
 
 автор: naxa   (24.02.2006 в 21:29)   письмо автору
 
 

В этой главе всё понятно расписано как чего делать, но вот чего я не понял, так это откуда брать инфу для поисковых систем. Написано, что все данные индивидуальны для каждого поисковика, но от том откуда взять эти данные - нет ни слова.
Вот например для aport u yandex - $numberpage += 1, a для rambler'a +=15 , откуда это всё взялось? Может кто-нибудь объяснить подробно, что откуда брать для каждого поисковика?

   
 
 автор: ZC   (24.02.2006 в 21:39)   письмо автору
 
   для: naxa   (24.02.2006 в 21:29)
 

Если я правильно Вас понял, то думаю, что информацию о каждом поисковике можно взять из HTML-кода, сделав какой-нибудь запрос.

   
 
 автор: cheops   (25.02.2006 в 13:34)   письмо автору
 
   для: naxa   (24.02.2006 в 21:29)
 

ZC совершенно прав - анализируется HTML-код результирующей страницы.

   
 
 автор: naxa   (25.02.2006 в 14:21)   письмо автору
 
   для: naxa   (24.02.2006 в 21:29)
 

с yandex'ом вроде разобрался - там всё просто, напротив ссылки написан её номер ... а как быть с такими поисковиками которые не выводя номер ссылки? (например www.google.com)

   
 
 автор: naxa   (25.02.2006 в 23:01)   письмо автору
 
   для: naxa   (24.02.2006 в 21:29)
 

а кто-нибудь вообще делал мониторинг для googla?

   
 
 автор: JC_Piligrim   (26.02.2006 в 02:10)   письмо автору
 
   для: naxa   (25.02.2006 в 23:01)
 

Я делал. Есть готовый скрипт для 3-х поисковиков. Google, Yandex, Rambler. Правда, неоптимизированный, работает на грузных регах, иногда по 5-7 секунд кушает (с учетом запроса и получения html'ок с поисковиков) для мониторинга 2-х сайтов по 3-м поисковикам в числе первых 10 запросов. (При большом желании можно модифицировать, и сделать хоть до 1000 позиции). Если интересно, могу выложить.

   
 
 автор: JC_Piligrim   (26.02.2006 в 23:58)   письмо автору
 
   для: JC_Piligrim   (26.02.2006 в 02:10)
 

Так как один участник заинтересовался, отправив мне письмо, вижу логичным разместить этот скрипт здесь.

Так как это FREE, то, соответственно, распространение - "AS IS", с отказом от всяких гарантий чего бы то ни было. :) Делал его по просьбе друга, поэтому, последствий типа взрыва монитора или форматирования винта быть не должно, хотя и не исключаются. :)

С Google'ом местами выползают косяки. Когда анализировал результирующие HTML от него, заметил, что временами по запросу он выдает код, значительно отличающий от кода аналогичных запросов. (то теги пропустит, то вставит, структуру поменяет, причем отображается он также, как и остальные. Видимо, программеры Гуггля защиту такую от SEOшников сделали. :). Поэтому иногда реги не срабатывают, и сайт "выпадает" из результатов, на самом деле он там есть. Можете доработать реги, если интересно, чтобы этого не происходило. Можете еще поисковиков добавить. В конце-концов, можете кучу фич понапихать, переработать. Буду благодарен, если сделаете конфетку и поделитесь ею потом. :)

Сам принцип такой:
1 .Определяете параметры поисковиков (строка запроса, реги и т.д.)
2. Определяете искомые сайты
3. Определяете ключевые слова
4. Скрипт делает запросы к поисковикам по ключевым словам, и вывод сохраняет в переменной
5. Потом парсинг переменной - сначала "выкусывает" "контейнеры" (это данные, относящиеся к одному блоку. Блоки повторяются для каждой позиции)
6. Потом парсит блоки и ищет в них совпадение с URL указанных сайтов, и выводит позиции.

Скрипт является скорее прототипом, чем готовым продуктом, но пользоваться им можно. Основные недостатки:
1. Большие тормоза. Может долго думать, и превысить timeout_limit (если он маленький, или скрипт запускается с домашнего Pentium-I, на соединении 28.8kbps.)
2. Как сказал, иногда "выпадает" Google
3. Нет "переходит" по постраничной навигации (вернее, делал, почти сделал, но сейчас времени нет до конца довести. Принцип там несложный).

Благодарю за внимание. Буду рад комментарием и конструктивным предложениям.


P.S. Да, чуть не забыл! Для анализа HTML могу посоветовать браузер Mozilla Firefox. У него классная подсветка синтаксиса html-кода во view-source (т.е., "не отходя от кассы"), и DOM Inspector в умолчательной сборке (правда при установку нужно пометить галку "средства разработки"). С помощью этих средств достаточно удобно анализировать. Если кто знает что-то лучше для этих целей, поделитесь!

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования