| |
|
|
| | Нужно регулярное выражение Только русские буквы и знаки препинапия скобки числа.
Т.е. Из кучи мусора на страницы остаётся только русский текст.
Вообщем только русские буквы и всё спец знаки | |
| |
|
|
| |
|
|
| |
для: yarovoews
(31.12.2008 в 19:11)
| | | Возможно вам подойдет следующее выражение
|^[-\dа-яё\.,!\?\(\)\"\' ]+$|i
|
| |
| |
|
|
| |
|
|
| |
для: cheops
(31.12.2008 в 19:46)
| | | Что-то не подходит...
<?php
// Парсинг контетна из страниц
$fn = file_get_contents('http://guest/content/12.htm');
//$fn = iconv('UTF-8', 'WINDOWS-1251', $fn);
//$fn = eregi_replace('CHARSET=utf8', 'CHARSET=cp1251', $fn);
/*echo $fn;*/
$fn = explode("\n", $fn);
for($a = 0; $a<count($fn); $a++)
{
$fn[$a] = strip_tags($fn[$a]);
if(preg_match("/^[а-яА-Я0-9\s]+$/", $fn[$a])!=false)
{echo $fn[$a];}
}
?>
Качаю страницу, убиваю теги, остаётся ещё много мусора, как бы его убрать,
а имеенно это CSS и JavaScript.
Может подскажите другой вариант. Хочется получить как можно чище текст. | |
| |
|
|
| |
|
|
| |
для: yarovoews
(31.12.2008 в 19:59)
| | | Если там UTF-8, то добавьте модификатор "u" | |
| |
|
|
| |
|
|
| |
для: BinLaden
(31.12.2008 в 21:12)
| | | Кодировка не проблема, регулярка не подходит. | |
| |
|
|
| |
|
|
| |
для: yarovoews
(01.01.2009 в 08:01)
| | | Файл в кодировке windows-1251 | |
| |
|
|
| |
|
|
| |
для: cheops
(31.12.2008 в 19:46)
| | | Немного переделал
|^[-\dа-яё\.,!\?\(\)\"\'\:\@\s\;]+$|i
|
Нужно ещё сюда добавить латинские буквы, но чтоб их было определённое колличество в строке. | |
| |
|
|
| |
|
|
| |
для: Yarovoews
(01.01.2009 в 10:41)
| | | >Нужно ещё сюда добавить латинские буквы, но чтоб их было определённое колличество в строке.
Не очень понятно, приведите пример того, когда латинские буквы допустимы, а когда нет. | |
| |
|
|
| |
|
|
| |
для: cheops
(31.12.2008 в 19:46)
| | | Автор >Т.е. Из кучи мусора на страницы остаётся только русский текст.
На странице
А зачем начало и конец в РВ?. Да и еще судя по всему надо учитывать перевод строк. | |
| |
|
|