Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Узнать работоспособность удаленных динамических ссылок
 
 автор: provodnik   (26.07.2007 в 12:55)   письмо автору
 
 

Доброго времени суток.
Цель: ограбить информацию с сайта с динамическими ссылками для последующей каталогизацией в MySql.
Ссылки имеют вид:

<?
http
://www.site.ru/index.php?a=525
?>

$a имеет значения от 1 до неизвестного. При заходе на данные ссылки, при работоспособности открывается контент. А если адрес не существует, то на экран выводится сообщение об ошибке и форма для связи с администрацией сайта.

Вопрос: как мне узнать все значения переменной $a, которые существуют. Может по размеру страницы? Прошу совета...

Спасибо всем окликнувшимся...

   
 
 автор: Петр   (26.07.2007 в 13:02)   письмо автору
 
   для: provodnik   (26.07.2007 в 12:55)
 

По размеру страницы будет не очень точно, вдруг существует страница с коротким текстом.
Лучше посмотри что сайт выводит, когда запрошена несуществующая страница и сверяй с ней, целиком или по какому-нибудь ключевому слову

   
 
 автор: provodnik   (26.07.2007 в 13:07)   письмо автору
 
   для: Петр   (26.07.2007 в 13:02)
 

К сожалению, когда ссылка не работает, сайт, помимо формы для связи с администрацией выводит еще на 50 килобайт всяких менюшек, рекламы и т.п. дряни... Тем более что существует вероятность диапазона значений переменной в несколько десятков тысяч. Сервер сгорит... ((

Может еще какие мысли? Может cURL каким местом мне сможет помочь? Заголовки какие либо? Я не силен к сожалению ни в cURL, ни в работе с сокетами....

Прошу советов... Заранее спасибо...

   
 
 автор: Петр   (26.07.2007 в 13:09)   письмо автору
 
   для: provodnik   (26.07.2007 в 13:07)
 

Ищи в полученой страницы только эту форму (или еще какой-нибудт элемент, котогоро больше нигде нет) если нету - ссылка рабочаяя

   
 
 автор: Trianon   (26.07.2007 в 13:13)   письмо автору
 
   для: provodnik   (26.07.2007 в 13:07)
 

Может проще воспользоваться формой?

   
 
 автор: provodnik   (26.07.2007 в 14:01)   письмо автору
 
   для: Trianon   (26.07.2007 в 13:13)
 

Петр - 8 ссылок обрабатываются 25 секунд... Я боюсь думать об обработке 30-40 тысяч параметров...
Trianon - что Вы имеете в виду?

   
 
 автор: SHAman   (26.07.2007 в 14:57)   письмо автору
 
   для: provodnik   (26.07.2007 в 14:01)
 

А в title страницы не оказывается сообщения об ошибке? Можно было бы на него ориентироваться.

Еще можно посмотреть заголовки. Возможно, там редирект стоит на страницу с формой. Может, его палить.

   
 
 автор: Trianon   (26.07.2007 в 14:58)   письмо автору
 
   для: provodnik   (26.07.2007 в 14:01)
 

Связаться с администрацией и предложить ей сотпрудничество.
Она Вам базу с контентом.
Вы ей фильтрацию мертвых ссылок.

   
 
 автор: provodnik   (26.07.2007 в 15:38)   письмо автору
 
   для: Trianon   (26.07.2007 в 14:58)
 

В общем на коленках нарисовал код:

<?
for($i 1$i 15$i++)
{
    
$text file_get_contents("http://www.site.ru/index.php?a=$i");
    if (!
strpos($text'Ошибка')) $mass[] = $i;
}
foreach (
$mass as $id => $n)
{
    
$text file_get_contents("http://www.site.ru/index.php?a=$n"); 
    echo 
$text;
}
?>

Всё работает нормально, но к сожалению если происходит обработка более 15 урлов, скрипт умирает...
Ка же быть? Если там их тысячи ??

Trianon - на сайте то нет битых ссылок. Они получаются у меня, когда я начинаю перебирать их контент. У них каталог с двойной вложенностью, т.е. название рубрики и материалы этой рубрики. id материалов идут не по порядку (какие то были перемещены, какие то удалены).

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования