|
автор: Воронцев (08.10.2005 в 09:22) |
|
| Добрый день, вот шеф задушит, если я в течении 10 дней не напишу скрипт с интеллектом, вот в чем заключается суть:
1. Он дает ссылку на сайт, на котором находится большое колличество
сайтов. То есть это каталог сайтов.
2. Все эти сайты нужно скопировать и поместить в базу MySQL. То есть
написать скрипт, который автоматически скопирует все сайты и поместит
их в базу данных.
------------------------------------------
nead help | |
|
|
|
|
|
|
|
для: Воронцев
(08.10.2005 в 09:22)
| | А можно поточнее - что такое "скопирует" сайты? Как Offline-Manager'ы ? Или еще как-то? | |
|
|
|
|
|
|
|
для: Shorr Kan
(08.10.2005 в 09:37)
| | Есть подозрение, что речь идет только об URL адресах. | |
|
|
|
|
автор: Воронцев (08.10.2005 в 12:40) |
|
|
для: Loki
(08.10.2005 в 11:52)
| | Необходимо копировать URL и дескрипшен | |
|
|
|
|
|
|
|
для: Воронцев
(08.10.2005 в 12:40)
| | Ну давай тогда начнём размышлять. И так.
1)Скажем, мы заносим в скрипт, адресса сайтов на которых присутсвует каталог других сайтов и где происходит постоянное обновление.
2) Мы задаём интервал проверки этих сайтов. Скажем раз в 30 минут.
3) Мы копируем в базу данных все строки где в начале присутсвует " www"
Надеюсь начальную логику я сформулировал правельно. Теперь важно знать для чего тебе эти адресса.
Если тебе нужны описания этих сайтов, то можно провернуть такую вещь:
4) Скрипт заходит на каждый сайт и копирует title в базу данных. | |
|
|
|
|
|
|
|
для: Воронцев
(08.10.2005 в 12:40)
| | Я думаю описания ссылки находиться на той же странице где и ссылка.
Вам помогут регулярные выражения+запросы Мускула.
Похожие темы с разбором ссылок
http://www.softtime.ru/forum/read.php?id_forum=6&id_theme=2731
http://softtime.ru/forum/read.php?id_forum=6&id_theme=7103
Хотя все зависит от структуры страницы, с которой вы хотите извлеч информацию.
P.S. А владелец сайта не против того, что вы хотите сделать практически копию его сайта? Возможно он месяцами и годами собирал информацию... А может тоже взял у конкурента.
P.P.S. Ладно чего то я разболтался, это личное дело каждого, где и как брать информацию | |
|
|
|
|
|
|
|
для: Воронцев
(08.10.2005 в 09:22)
| | Мини-поисковый робот? Хм... у вас сервер свой или имеется только хостинг? Дело в том, что на хостинге время выполнения PHP-скрипта ограничено 30 секундами - вряд ли за это время скрипт управится с обходом. | |
|
|
|
|
автор: Воронцев (08.10.2005 в 17:09) |
|
|
для: cheops
(08.10.2005 в 14:13)
| | Да ..имеется сервер | |
|
|
|
|
|
|
|
для: Воронцев
(08.10.2005 в 17:09)
| | А в чём сложность? Просто не видно конкретного вопроса... у вас затруднение в
1) алгоритме
2) реализации конкретных узлов | |
|
|
|
|
автор: Воронцев (09.10.2005 в 00:01) |
|
|
для: cheops
(08.10.2005 в 19:21)
| | У меня затруднение именно в алгоритме .....
Каким образом это можно реализовать ? Ведь есть каталоги с разным форматом ссылок... | |
|
|
|
|
|
|
|
для: Воронцев
(09.10.2005 в 00:01)
| | Я думаю вырожу общее мненее если попрошу уточнить задачу. | |
|
|
|
|
|
|
|
для: Воронцев
(09.10.2005 в 00:01)
| | Вам нужно написать свой мини-робот, что-то вроде Yandex или Rambler - они действуют точно также, берут за основу каталог и идут по ссылкам, перемалывая весь Интернет. Ну сейчас-то у них база данных большая и они идут по собственным ссылкам.
Главная проблема: ссылки могут быть циклическими, поэтому необходимо сохранять хэш страницы и сверятся - не было ли уже такого хэша. Во вторых следует ограничить глубину - т.е. число переходов от материнской ссылки.
Лучше всё хранить в базе данных.
1) Загружаем страницу, например при помощи функции file_get_contents() - если PHP старый и такой функции нет, можно использовать следующую функцию
<?php
function openpage($link)
{
$fd = fopen($link, "r");
$text="";
if (!$fd) echo "Запрашиваемая страница не найдена";
else
{
while (!feof ($fd))
{
$text .= fgets($fd, 10240);
}
}
fclose ($fd);
return $text;
}
?>
|
2) Сохраняем в базу данных содержимое страницы, хэш, глубину. Предварительно смотрим нет ли такого хэша в базе данных - если есть отбрасываем.
3) Разбираем страницу: при помощи регулярного выражения ищем все ссылки - посмотрите его в теме http://www.softtime.ru/forum/read.php?id_forum=6&id_theme=7875 - если будут трудности в использовании - задайте вопрос в разделе Регулярные выражения
4) Осуществляем рекурсивный спуск - т.е. повторяем всесь цикл для каждой и ссылок. | |
|
|
|