Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Разное

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Корректный просмотр базы поисковиков
 
 автор: Владимир55   (06.01.2010 в 11:59)   письмо автору
 
 

Насколько я знаю, Яндекс не любит, когда скрипт листает его базу через HTML, но не возражает, если это делается посредством XML (в пределах 1000 запросов).

Yandex XML я использую и это мне нравится. А вот с Гуглем договориться пока что не удается. Поискав в сети, я обнаружил, что и для Гугля есть нечто похожее - Google API. Об этом много написано, но как-то очень сложно и расплывчато (какие-то API кнопки, картинки и др.).

А вот как конкретно посредством рнр сделать запрос в Google API - непонятно!

  Ответить  
 
 автор: ~AquaZ~   (06.01.2010 в 14:30)   письмо автору
 
   для: Владимир55   (06.01.2010 в 11:59)
 

А почему бы не спросить нужное у Гугля притворившись браузером?

  Ответить  
 
 автор: cheops   (06.01.2010 в 14:49)   письмо автору
 
   для: ~AquaZ~   (06.01.2010 в 14:30)
 

Это ещё и пул IP-адресов понадобится.

  Ответить  
 
 автор: Владимир55   (06.01.2010 в 16:01)   письмо автору
 
   для: cheops   (06.01.2010 в 14:49)
 

Это ещё и пул IP-адресов понадобится.

Всю базу перелистывать не потребуется, так что можно попробовать обойтись без пула. Во всяком случае, четырьмя адресами я располагаю. Из коих один динамический. Так что поле для деятельности есть.

А почему бы не спросить нужное у Гугля притворившись браузером?

Тут два обстоятельства.

1. Сканирование скриптом через ВЭБформу является некорректным.
2. Правила составления запроса, достаточные для создания рнр-скрипта, мне неизвестны.
Какая кодировка ответа, какие переменные - ничего этого я не знаю.
http://www.google.ru/search?ie=UTF-8&hl=ru&q=%D0%93%D1%83%D0%B3%D0%BB%D1%8C&redir_esc=y&ei=MYlES_qWI5SqnAOl78X2DA

Что здесь что?

  Ответить  
 
 автор: Trianon   (06.01.2010 в 16:45)   письмо автору
 
   для: Владимир55   (06.01.2010 в 16:01)
 

http://www.google.ru/search?ie=UTF-8&hl=ru&q=%D0%93%D1%83%D0%B3%D0%BB%D1%8C
Вот здесь, очевидно,
ie - input encoding
hl - home language
q - query (строка в кодировке, заданной параметром ie, оформленная по всем правилам RFC-1738 / rawurlencode() )

  Ответить  
 
 автор: Владимир55   (06.01.2010 в 17:13)   письмо автору
 
   для: Trianon   (06.01.2010 в 16:45)
 

Спасибо, это заработало, и результат вполне поддается разбору.

У Google API, как я догадываюсь по аналогии с Yandex XML, очень удобно структурированы данные: помимо отсутствия рекламы, есть еще и специальные теги, отсутствующие в HTML коде, а также коды ошибок и исчерпания ресурса.
Но разобраться можно и здесь.

  Ответить  
 
 автор: Trianon   (06.01.2010 в 17:22)   письмо автору
 
   для: Владимир55   (06.01.2010 в 17:13)
 

забыл.
start=30 - пропустить первые 30 элементов поисковой выдачи. Впрочем, Вам наверное так или иначе первая десятка нужна.

  Ответить  
 
 автор: Владимир55   (06.01.2010 в 18:06)   письмо автору
 
   для: Trianon   (06.01.2010 в 17:22)
 

так или иначе первая десятка нужна

Порою желательно полистать и поглубже. Как конкретно использовать start? Можете показать на примере запроса?

  Ответить  
 
 автор: Trianon   (06.01.2010 в 18:33)   письмо автору
 
   для: Владимир55   (06.01.2010 в 18:06)
 

все параметры в виде имя=rawurlencode(значение) собираются через знак &
http://www.google.ru/search?ie=UTF-8&hl=ru&q=%D0%93%D1%83%D0%B3%D0%BB%D1%8C&start=30

  Ответить  
 
 автор: Владимир55   (06.01.2010 в 19:05)   письмо автору
 
   для: Trianon   (06.01.2010 в 18:33)
 

Понятно.
Спасибо!

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования