|
|
|
| Нашел интересную регулярку:
/[^\w\pL_-]/u
Она служит для вырезание из строки в UTF-8 всех символов, не являющихся знаками алфавита.
Например, в строке
"русский: привет мир, арабский: مرحبا العالم, иврит: שלום העולם, португальский: Olá mundo, 0123456789 - _"
она вырежет все пробелы, запятые и двоеточия:
$str = preg_replace('/[^\w\pL_-]/u','',$str);
|
//русскийприветмирарабскийمرحباالعالم
ивритשלוםהעולםпортугальскийOlámundo0123456789-_
Я не понял конструкции "\pL" в этой регулярке.
P.S. Она прекрасна, не правда ли? :) | |
|
|
|
|
|
|
|
|
для: Trianon
(13.02.2011 в 11:49)
| | Да, уж. Оценить шарм в кодировке страниц этого сайта невозможно, ибо здесь - windows-1251.
Если же страницы в UTF-8, то данная регулярка корректно работает со всеми существующими видами письма, будь то иврит, арабская вязь или китайские иероглифы.
Нашел ответ на свой вопрос здесь: http://docs.php.net/manual/ru/regexp.reference.unicode.php
Но в суть въезжаю что-то медленно... | |
|
|
|