|
|
|
| хочу написать грабилку ссылок. взяла вот такое рег.выражение, скармливаю ему ссылку на
страницу, откуда надо натаскать ссылок и ... вижу 10 ссылок абсолютно не тех, которые есть
на той странице! ни на странице, ни в коде нет таких ссылок, которые мне дает скрипт.
<?php
$from = preg_quote('<dd>','#');
$to = preg_quote('</dd>','#');
$text = file_get_contents("http://find.in.gr/index.php?q=sport");
preg_match_all("#$from([\s\S]*)$to#U", $text, $res, PREG_SET_ORDER);
foreach($res as $n => $v) $res[$n] = $res[$n][1];
print_r($res);
?>
|
| |
|
|
|
|
|
|
|
для: elenaki
(24.11.2006 в 14:35)
| | На той странице ссылки относительные.
Трактоваться они станут относительно домена и каталога Вашего скрипта.
Как минимум, пока BASE не задать.
Может в этом дело? | |
|
|
|
|
|
|
|
для: Trianon
(24.11.2006 в 19:04)
| | <a href="http://www.sport.gov.gr/"> какая же это относительная ссылка? я хочу те ссылки, которые заключены между <dt></dt>, но и краткое описание страницы, которое выше, тоже хотелось бы заполучить, поэтому дала скрипту читать кусок в <dd></dd> | |
|
|
|
|
|
|
|
для: elenaki
(24.11.2006 в 19:55)
| | Между <dt> и </dt> такие ссылки есть.
Но Вы то собираете то, что между <dd> и </dd>. Первое во второе не входит, и остается не подобранным. | |
|
|
|