|
| |
|
|
| |
для: racoon
(10.04.2007 в 12:45)
| | | все! все спс, все работает. | |
| |
|
|
| |
|
|
| |
для: dima2207
(10.04.2007 в 02:59)
| | | проблема наверно из за переменной max_execution_time умолчанию 30, как раз и рветься соединение через 30 сек....
тока я ее изменить не могу, выставляю в php.ini на 90, а значение так и остается 30... | |
| |
|
|
| |
|
|
| |
для: racoon
(09.04.2007 в 23:24)
| | | Попробуйте сокетом , и поиграйте с тайм оутом , может просто сервер рвет соединение ! | |
| |
|
|
| |
|
|
| |
для: Trianon
(09.04.2007 в 21:35)
| | | а это можно какнить обойти?
кстати код грабит новости с рамблера... | |
| |
|
|
| |
|
|
| |
для: racoon
(09.04.2007 в 21:28)
| | | функция file_get_contents() предназначена для чтения файлов. Это она делает относительно надежно. Граббинг документов с чужих сайтов с помощью нее гарантировать Вам никто не будет. Собственно не только с её помощью. Обычно сайты стараются защищиаться от потокового захвата контента. | |
| |
|
|
| |
|
|
| |
для: Trianon
(09.04.2007 в 21:04)
| | | постараюсь объяснить подробнее.
первый захват
$bufer = file_get_contents("тут страница с результатами поиска по слову");
preg_match_all("тут рег. вырожение по выдергиванию ссылок",$bufer,$links,PREG_PATTERN_ORDER);
работает 100%, выдергивает 15 ссылок.
для проверки делал вот так
$i=0;
foreach($links[1] as $vl)
{
print $i." ".$vl."<br>";
$i++;
};
это выводит 15 вытащиных ссылок и записывает под номмрами 0-14, т.е. цикл как и положено выполняеться 15 раз.
теперь нужно из каждой ссылки вытащить новость, т.е. получиться 15 новостей. дописываю...
$i=0;
foreach($links[1] as $vl)
{
$page= file_get_contents($vl);
preg_match_all("тут рег. вырожение на выдергивание новости",$page,$out,PREG_PATTERN_ORDER);
$st1=$out[1][0];
$st2=$out[2][0];
$st3=$out[3][0];
$st4=$out[4][0];
print "$i $st1 $st2\n $st3 $st4";
$i++;
};
ТО цикл выполняется 8-9 раз иногда 10, не знаю от чего зависит, но новости выдергиваются тока 8-9 а имено цикл.
инфа выдерается норм, проверял вытаскивать с каждой по отдельности или группами например с 11-15 этимже выроженем они норм выдергиваются.
если убрать строку
$page= file_get_contents($vl);
то цмкл проходит полностью, что с этой строкой не так? | |
| |
|
|
| |
|
|
| |
для: racoon
(09.04.2007 в 18:29)
| | | Трудно ответить на Ваш вопрос, не имея исходных данных.
В общем случае - Ваш шаблон регулярного выражения, вероятно, захватывает не все возможные варианты записей в потоке. | |
| |
|
|
| |
|
|
| |
для: racoon
(09.04.2007 в 19:36)
| | | проверьте сколько раз все-таки выполняется этот цикл
$i=0;
foreach($links[1] as $vl)
{
$page= file_get_contents($vl);
preg_match_all("тут рег. вырожение на выдергивание новости",$page,$out,PREG_PATTERN_ORDER);
$st1=$out[1][0];
$st2=$out[2][0];
$st3=$out[3][0];
$st4=$out[4][0];
$htm=fopen($filenews,"a");
fputs ($htm, "$st1\n".$st2.$st3."$st4\n\n");
$i++;
}
fclose($htm);
echo $i; | |
| |
|
|
| |
|
|
| |
для: racoon
(09.04.2007 в 19:36)
| | | Я ссылки дал, для того, чтобы Вы сверились, может где-то что не так/не до конца вытаскиваете... | |
| |
|
|
| |
|
|
| |
для: ddhvvn
(09.04.2007 в 18:49)
| | | ето не совсем то, проблемы с вытаскивание инфы нету, проблема в том что цикл полностью не проходит... | |
| |
|
|
|