Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В. PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: граббер информации
 
 автор: technic611   (15.01.2011 в 12:24)   письмо автору
 
 

я тут задумал один сервис сделать, но нехватает инфы у меня в базе, цену товара хочу сграбить у одного сайта, там у них через гет запрос идет поиск товара и узнавание цены. если погружать допустим каждый день оттуда эту страницу к себе и делать разбор, админможет засечь?может как то через прокси это делать?

  Ответить  
 
 автор: cheops   (15.01.2011 в 12:46)   письмо автору
 
   для: technic611   (15.01.2011 в 12:24)
 

Один запрос в сутки скорее всего никто не заметит, особенно, если сайт посещаемый. Правда если страниц много и ваш робот будет делать десятки тысяч хитов, на это могут обратить внимание.

  Ответить  
 
 автор: technic611   (15.01.2011 в 12:50)   письмо автору
 
   для: cheops   (15.01.2011 в 12:46)
 

нет. там не диапазон страница, а всего одна,а если как то через прокси делать? возможно такое?

  Ответить  
 
 автор: cheops   (15.01.2011 в 12:56)   письмо автору
 
   для: technic611   (15.01.2011 в 12:50)
 

Можно, для этого при обращении через сокеты, нужно указывать в HTTP-заголовке Host домен сайта, а в первом параметре указывать IP-адрес прокси-сервера. В остальном порядок работы точно такой же.

  Ответить  
 
 автор: technic611   (15.01.2011 в 13:14)   письмо автору
 
   для: cheops   (15.01.2011 в 12:56)
 

что можно почитать, чтоб разобраться с сокетами?

  Ответить  
 
 автор: cheops   (15.01.2011 в 13:59)   письмо автору
 
   для: technic611   (15.01.2011 в 13:14)
 

Можно отталкиваться от следующих ссылок
http://www.softtime.ru/forum/read.php?id_forum=1&id_theme=1879
http://www.softtime.ru/forum/read.php?id_forum=1&id_theme=9050
http://www.softtime.ru/forum/read.php?id_forum=1&id_theme=8931

  Ответить  
 
 автор: Красная_шляпа   (15.01.2011 в 14:37)   письмо автору
 
   для: technic611   (15.01.2011 в 13:14)
 

curl используй не мучайся с сокетами

  Ответить  
 
 автор: naxa   (18.01.2011 в 21:08)   письмо автору
 
   для: technic611   (15.01.2011 в 12:24)
 

если из-за тебя трафик сильно возрастёт - админы найдут как обрезать твой грабер даже с прокси ...

Решение:
1н раз с 1-го IP распарсь их БД в свою БД, и потом ходи за обновлениями. если обновлений нет - оставляешь сайт в покое :)

зачем каждый раз при заходе на твой сайт - распарсивать чужой сайт? %)

  Ответить  
 
 автор: cheops   (18.01.2011 в 21:10)   письмо автору
 
   для: naxa   (18.01.2011 в 21:08)
 

Так об этом речь и идет.

  Ответить  
 
 автор: naxa   (18.01.2011 в 21:11)   письмо автору
 
   для: cheops   (18.01.2011 в 21:10)
 

я чего-то не так понял? :)

  Ответить  
 
 автор: cheops   (18.01.2011 в 21:17)   письмо автору
 
   для: naxa   (18.01.2011 в 21:11)
 

>если погружать допустим каждый день оттуда эту страницу к себе и делать разбор
Я так понимаю речь шла об однократном действии (тут опасность может предоставлять, только количество страниц для разбора, если их десятки тысяч - даже однократные ежедневные обновления могут заметить).

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования