| |
|
|
| | Здравствуйте!
Подкиньте идею, как средствами пхп можно определить все страницы сайта, для их индексации. Сайт подкачивается из БД, адреса страниц имеют вид: index.php?page=somepage&id=1. | |
| |
|
|
| |
|
|
| |
для: Ant88
(15.05.2007 в 08:25)
| | | Не важно, как генерятся страницы, важно что в итоге получяется html код. Берешь главную страницу, к примеру, http://main_page_need_file.ru
<? $array_text_file = file ("http://main_page_need_file.ru");
|
Если это чужой сайт и стоит защита от чтения не через броузер, тогда ничего не выйдет, будем считать, что защиты нет.
Так вот ... в полученной странице выбираем внутренние ссылки, т.е. содержащие main_page_need_file.ru/*
Получаем массив ссылок на главной странице, а теперь переходим по очереди по ссылкам на другие страницы и повторяем поиск. Получим дерево внутренних ссылок.
Как видишь метод не зависит от вида ссылок. | |
| |
|
|
| |
|
|
| |
для: Остроухов Сергей
(15.05.2007 в 12:30)
| | | Хорошо, первую страницу мы отпарсили, а функция file() разве читает файл, если аргумент filename имеет такой нецензурный вид как (http://www.somesite.net/?blabla=1&blablala=2)? | |
| |
|
|
|
| |
|
|
| |
для: Loki
(15.05.2007 в 13:01)
| | | О как...
Спасибо, че-то похожее, будем разбираться. | |
| |
|
|