Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум Регулярные Выражения

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Парсер поисковой системы yahoo
 
 автор: kozman   (06.12.2006 в 12:04)   письмо автору
 
 

1) Мне нужны 1000 или меньше урлов страниц которые являются результатом поиска
например по запросу link:http://www.fsbo.com/ -site:fsbo.com.

Вот что у меня получилось:

$_POST["txt"] = "www.fsbo.com";
$base = substr($_POST["txt"],4);
$url ="http://search.yahoo.com/search?p=link%3Ahttp%3A%2F%2F".$_POST["txt"]."%2F+-site%3A".$base."&prssweb=Search&ei=UTF-8&fr=sexp-rd&b=1";

  $content = file_get_contents($url);  
  $pattern = '|<em class=yschurl>(.+)</em>|Ui'; 
  preg_match_all($pattern,$content,$out);  
  echo "<pre>";  
  print_r($out[1]);  
  echo "</pre>";


Но выдаётса только первые 10 ссылок.
[url]А как получить все ссылки за один заход?[/url]

2) Нужно перейти по каждому из полученых урлов и выташить ссылку+текст по которой сайт ссылаетса на наш сайт, в нашем случае www.fsbo.com

---------------------------
Помогите кто может. Третий день ломаю голову.

   
 
 автор: kasmanaft   (06.12.2006 в 15:17)   письмо автору
 
   для: kozman   (06.12.2006 в 12:04)
 

1) Заходим на yahoo и видим, что можно получить только 100 результатов на страницу. То есть, если будет несколько страниц, их придется листать - тысячу за раз не получить ... смотрим на УРЛ и видим в самом его конце " &b=11 ", " &b=21 " - позиция найденного, с которой начинается вывод.

Итак, в цикле обходите все страницы (как это сделано сейчас, но еще используя &b=XX), при этом можно сначала получить все ссылки на сайты и потом уже их обрабатывать, а можно сразу.

2) Обходите в цикле ваш $out[1] и поочередно качайте оттуда все страницы. Регулярным выражением выдирайте с них нужный текст

   
 
 автор: kozman   (06.12.2006 в 16:38)   письмо автору
 
   для: kasmanaft   (06.12.2006 в 15:17)
 

Да, спасибо! Вроде, что-то прояснилось.

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования