|
|
|
| Насколько я знаю, Яндекс не любит, когда скрипт листает его базу через HTML, но не возражает, если это делается посредством XML (в пределах 1000 запросов).
Yandex XML я использую и это мне нравится. А вот с Гуглем договориться пока что не удается. Поискав в сети, я обнаружил, что и для Гугля есть нечто похожее - Google API. Об этом много написано, но как-то очень сложно и расплывчато (какие-то API кнопки, картинки и др.).
А вот как конкретно посредством рнр сделать запрос в Google API - непонятно! | |
|
|
|
|
|
|
|
для: Владимир55
(06.01.2010 в 11:59)
| | А почему бы не спросить нужное у Гугля притворившись браузером? | |
|
|
|
|
|
|
|
для: ~AquaZ~
(06.01.2010 в 14:30)
| | Это ещё и пул IP-адресов понадобится. | |
|
|
|
|
|
|
|
для: cheops
(06.01.2010 в 14:49)
| | Это ещё и пул IP-адресов понадобится.
Всю базу перелистывать не потребуется, так что можно попробовать обойтись без пула. Во всяком случае, четырьмя адресами я располагаю. Из коих один динамический. Так что поле для деятельности есть.
А почему бы не спросить нужное у Гугля притворившись браузером?
Тут два обстоятельства.
1. Сканирование скриптом через ВЭБформу является некорректным.
2. Правила составления запроса, достаточные для создания рнр-скрипта, мне неизвестны.
Какая кодировка ответа, какие переменные - ничего этого я не знаю.
http://www.google.ru/search?ie=UTF-8&hl=ru&q=%D0%93%D1%83%D0%B3%D0%BB%D1%8C&redir_esc=y&ei=MYlES_qWI5SqnAOl78X2DA
Что здесь что? | |
|
|
|
|
|
|
|
для: Владимир55
(06.01.2010 в 16:01)
| | http://www.google.ru/search?ie=UTF-8&hl=ru&q=%D0%93%D1%83%D0%B3%D0%BB%D1%8C
Вот здесь, очевидно,
ie - input encoding
hl - home language
q - query (строка в кодировке, заданной параметром ie, оформленная по всем правилам RFC-1738 / rawurlencode() ) | |
|
|
|
|
|
|
|
для: Trianon
(06.01.2010 в 16:45)
| | Спасибо, это заработало, и результат вполне поддается разбору.
У Google API, как я догадываюсь по аналогии с Yandex XML, очень удобно структурированы данные: помимо отсутствия рекламы, есть еще и специальные теги, отсутствующие в HTML коде, а также коды ошибок и исчерпания ресурса.
Но разобраться можно и здесь. | |
|
|
|
|
|
|
|
для: Владимир55
(06.01.2010 в 17:13)
| | забыл.
start=30 - пропустить первые 30 элементов поисковой выдачи. Впрочем, Вам наверное так или иначе первая десятка нужна. | |
|
|
|
|
|
|
|
для: Trianon
(06.01.2010 в 17:22)
| | так или иначе первая десятка нужна
Порою желательно полистать и поглубже. Как конкретно использовать start? Можете показать на примере запроса? | |
|
|
|
|
|
|
|
для: Владимир55
(06.01.2010 в 18:06)
| | все параметры в виде имя=rawurlencode(значение) собираются через знак &
http://www.google.ru/search?ie=UTF-8&hl=ru&q=%D0%93%D1%83%D0%B3%D0%BB%D1%8C&start=30 | |
|
|
|
|
|
|
|
для: Trianon
(06.01.2010 в 18:33)
| | Понятно.
Спасибо! | |
|
|
|