Индексация сайта?

Главная страница

Создание сайтов

Блог Кузнецова М.В.

Статьи о PHP

PHP-скрипты

Статьи об Apache

Форум С++

Консультации

Форум "Про Жизнь"

Форум:	Форум PHP	Форум Apache	Форум Регулярные Выражения	Форум MySQL	HTML+CSS+JavaScript	Форум Flash	Разное
Новые темы:	0	0	0	0	0	0	0

Здравствуйте, Посетитель!

вид форума:

тема: Индексация сайта?

следующая тема

предыдущая тема

	автор: Ant88 (15.05.2007 в 08:25) письмо автору
	Здравствуйте! Подкиньте идею, как средствами пхп можно определить все страницы сайта, для их индексации. Сайт подкачивается из БД, адреса страниц имеют вид: index.php?page=somepage&id=1.

автор: Остроухов Сергей (15.05.2007 в 12:30) письмо автору

для: Ant88 (15.05.2007 в 08:25)

Не важно, как генерятся страницы, важно что в итоге получяется html код. Берешь главную страницу, к примеру, http://main_page_need_file.ru

<? $array_text_file = file ("http://main_page_need_file.ru");

Если это чужой сайт и стоит защита от чтения не через броузер, тогда ничего не выйдет, будем считать, что защиты нет.
Так вот ... в полученной странице выбираем внутренние ссылки, т.е. содержащие main_page_need_file.ru/*
Получаем массив ссылок на главной странице, а теперь переходим по очереди по ссылкам на другие страницы и повторяем поиск. Получим дерево внутренних ссылок.
Как видишь метод не зависит от вида ссылок.

	автор: Ant88 (15.05.2007 в 12:52) письмо автору
	для: Остроухов Сергей (15.05.2007 в 12:30)
	Хорошо, первую страницу мы отпарсили, а функция file() разве читает файл, если аргумент filename имеет такой нецензурный вид как (http://www.somesite.net/?blabla=1&blablala=2)?

	автор: Loki (15.05.2007 в 13:01) письмо автору
	для: Ant88 (15.05.2007 в 08:25)
	http://softtime.ru/forum/read.php?id_forum=1&id_theme=26737 http://softtime.ru/forum/read.php?id_forum=1&id_theme=3481

	автор: Ant88 (15.05.2007 в 13:13) письмо автору
	для: Loki (15.05.2007 в 13:01)
	О как... Спасибо, че-то похожее, будем разбираться.