Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В. Программирование. Ступени успешной карьеры. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум Регулярные Выражения

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: граббер грабит не то
 
 автор: elenaki   (24.11.2006 в 14:35)   письмо автору
 
 

хочу написать грабилку ссылок. взяла вот такое рег.выражение, скармливаю ему ссылку на
страницу, откуда надо натаскать ссылок и ... вижу 10 ссылок абсолютно не тех, которые есть
на той странице! ни на странице, ни в коде нет таких ссылок, которые мне дает скрипт.


<?php 
    $from 
preg_quote('<dd>','#'); 
    
$to preg_quote('</dd>','#'); 
    
$text file_get_contents("http://find.in.gr/index.php?q=sport");
    
preg_match_all("#$from([\s\S]*)$to#U"$text$resPREG_SET_ORDER); 
    foreach(
$res as $n => $v$res[$n] = $res[$n][1]; 
    
print_r($res); 
?>

   
 
 автор: Trianon   (24.11.2006 в 19:04)   письмо автору
 
   для: elenaki   (24.11.2006 в 14:35)
 

На той странице ссылки относительные.
Трактоваться они станут относительно домена и каталога Вашего скрипта.
Как минимум, пока BASE не задать.
Может в этом дело?

   
 
 автор: elenaki   (24.11.2006 в 19:55)   письмо автору
 
   для: Trianon   (24.11.2006 в 19:04)
 

<a href="http://www.sport.gov.gr/"> какая же это относительная ссылка? я хочу те ссылки, которые заключены между <dt></dt>, но и краткое описание страницы, которое выше, тоже хотелось бы заполучить, поэтому дала скрипту читать кусок в <dd></dd>

   
 
 автор: Trianon   (24.11.2006 в 20:27)   письмо автору
 
   для: elenaki   (24.11.2006 в 19:55)
 

Между <dt> и </dt> такие ссылки есть.
Но Вы то собираете то, что между <dd> и </dd>. Первое во второе не входит, и остается не подобранным.

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования