Грабер данных из HTML-кода при помощи регулярных выражений

Форум:	Форум PHP	Форум Apache	Форум Регулярные Выражения	Форум MySQL	HTML+CSS+JavaScript	Форум Flash	Разное
Новые темы:	0	0	0	0	0	0	0

Здравствуйте, Посетитель!

вид форума:

тема: Грабер данных из HTML-кода при помощи регулярных выражений

следующая тема

предыдущая тема

автор: technic611 (31.01.2011 в 14:13) письмо автору

нужно вытащить со страницы данные

<h2 class="auto-model"> <a href="/****/used/toyota/bb/">текст</a>
вытащить текст
.....

<big>текст какой то</big>
нужно вытащить
какой то текст

<ul class="sale-phones"><li>какой то текст
вытащить
какой то текст

<dt>Год вып:</dt> <dd class=""><big>какой то текст
нужно вытащить
какой то текст

Ответить

автор: cheops (31.01.2011 в 14:39) письмо автору

для: technic611 (31.01.2011 в 14:13)

Можно поступить следующи образом

<?php $text = '<h2 class="auto-model"> <a href="/****/used/toyota/bb/">текст</a>'; $pattern = "|<h2[\s]+class=\"auto-model\">[\s]*<a[^>]+>(.*?)</a>|is"; preg_match($pattern, $text, $out); echo $out[1]; $text = '<big>текст какой то</big>'; $pattern = "|<p[\s]+class=\"cost\"><big>(.*?)</big>|is"; preg_match($pattern, $text, $out); echo $out[1]; $text = '<ul class="sale-phones"><li>какой то текст'; $pattern = "|<ul[\s]+class=\"sale-phones\"><li>(.*?)|is"; preg_match($pattern, $text, $out); echo $out[1]; $text = '<dt>Год вып:</dt> <dd class=""><big>какой то текст'; $pattern = "|<dt>[^<]+</dt>[\s]*<dd[^>]+><big>(.*?)|is"; preg_match($pattern, $text, $out); echo $out[1]; ?>

Ответить

	автор: technic611 (31.01.2011 в 17:15) письмо автору
	для: cheops (31.01.2011 в 14:39)
	спасибо. [\s]+ это обозначает пробел?
	Ответить

	автор: cheops (31.01.2011 в 17:16) письмо автору
	для: technic611 (31.01.2011 в 17:15)
	Любой пробельный символ, включая переводы строк и табуляции, + означает что их может быть один или больше.
	Ответить

	автор: SHAman (01.02.2011 в 12:57) письмо автору
	для: cheops (31.01.2011 в 17:16)
	Только не понятно зачем было \s заключать в []. Это и так класс, который ничем не расширяется.
	Ответить

	автор: cheops (01.02.2011 в 13:30) письмо автору
	для: SHAman (01.02.2011 в 12:57)
	Дурацкая привычка...
	Ответить

автор: Deed (08.02.2011 в 20:10) письмо автору

для: technic611 (31.01.2011 в 14:13)

<? $obr=<<< DEED <h2 class="auto-model"> <a href="/****/used/toyota/bb/">текст</a> вытащить текст ..... <big>текст какой то</big> нужно вытащить какой то текст <ul class="sale-phones"><li>какой то текст вытащить какой то текст <dt>Год вып:</dt> <dd class=""><big>какой то текст нужно вытащить какой то текст DEED; preg_match_all("/(?:(?<=[^dt]>))([^<\/>].+?)(?:(?=<\/))/",$obr,$mat); echo "<pre>"; print_r($mat[1]); echo "</pre>"; /* Array ( [0] => текст [1] => текст какой то [2] => какой то текст [3] => какой то текст ) */ ?>

Ответить

	автор: SHAman (09.02.2011 в 18:15) письмо автору
	для: technic611 (31.01.2011 в 14:13)
	Я тут это... написал статью короче. Если что - может поможет и сможете сами писать в следующий раз что-то подобное.
	Ответить

автор: Deed (09.02.2011 в 19:01) письмо автору

для: SHAman (09.02.2011 в 18:15)

<?php $bold=<<< DEED <a href="/****/used/toyota/bb/" class="someclass">текст, который нам нужен с лишними пробелами в конце а это нам уже не нужно</a> DEED; preg_match("/(?:(<a.+?[^>]+>))(.+?)\s*?(?:<)/",$bold,$match); echo ">".$match[2]."<"; /* >текст, который нам нужен с лишними пробелами в конце< */ ?> (Знаки ">" и "<" добавлены в начале и конце строки для наглядности отсутствия пробелов). Спасибо Вам, SHAman, за популяризацию знаний и бескорыстную помощь начинающим! Все мы когда-то читали подобные статьи с жадностью :) А опыт приходит со временем.

Ответить

	автор: SHAman (10.02.2011 в 10:00) письмо автору
	для: Deed (09.02.2011 в 19:01)
	На конкретном тексте ваша регулярка работает, но на реальном коде страницы - спотыкнется. Она выберет тексты ссылок. Всех. Кстати, а зачем вы делаете кластеризацию без захвата? Я про (?:) Пожалуйста:)
	Ответить

вверх

Форум Регулярные Выражения