| |
|
|
| | Как нормализуют юникод в PHP?
Есть для этого функции?
В googles ничего конкретного не нашёл. Пишут только что надо
нормализовывать, что есть 4 способа нормализации, но как это делается
практически - остаётся за кадром. | |
| |
|
|
| |
|
|
| |
для: Eugene77
(25.12.2007 в 10:30)
| | | >В googles
Я думаю все-таки в google ® | |
| |
|
|
| |
|
|
| |
для: mihdan
(25.12.2007 в 11:02)
| | | Эту страницу я уже смотрел - очень обобщённо написано.
Из неё, кстати, как раз и видно, что нормализация нужна.
Но практических советов нигде не удаётся отыскать, по-крайней мере пока. | |
| |
|
|
| |
|
|
| |
для: Eugene77
(25.12.2007 в 17:13)
| | | - | |
| |
|
|
| |
|
|
| |
для: Eugene77
(25.12.2007 в 17:13)
| | | Вы ведь понимаете в чём дело.
Юникод допускает различное написание одной и той же буквы.
Получается, если без предварительной нормализации класть тексты в базу, то
поиск не всегда будет работать.
Значит надо и перед записью в базу, и перед поиском приводить всё к единому
обозначению букв, не так уже в этом случае важно какому.
Но вот как это сделать - ума не приложу.
И ничего не нашёл я в поиске. | |
| |
|
|
| |
|
|
| |
для: Eugene77
(26.12.2007 в 20:40)
| | | Пока искал, всретил вот такие новости, если кому интересно.
В PHP6
Native Unicode strings
A clear separation between Binary, Native (Encoded) Strings and Unicode Strings
UTF16 as internal encoding
All functions and operators work on Normalized Composed Characters (NFC)
All identifiers can contain Unicode characters
Internationalization is explicit, not implicit
На меня, они произвели впечатление.
Кажется мой вопрос просто исчезнет автоматически с переходом на PHP6:
All functions and operators work on Normalized Composed Characters (NFC)
А вот это забавно:
UTF16 as internal encoding
Вторая по internet'ности нация (китайцы), которая к моменту широкого распространения PHP6, скорее всего станет первой, оказалась дискриминированной, так как UTF16 ХАН не поддерживает.
Но это всё пустые разговорчики, а если серьёзно, неужели вы не нормализуете данные в своих базаХ?
Халтура ведь получается! | |
| |
|
|
| |
|
|
| |
для: Eugene77
(27.12.2007 в 19:52)
| | | Видно - быть мне в первых рядах пользователей PHP6 | |
| |
|
|
| |
|
|
| |
для: Eugene77
(28.12.2007 в 18:25)
| | | Любите с умным человеком поговорить? Или просто мысли вслух | |
| |
|
|
| |
|
|
| |
для: mihdan
(29.12.2007 в 13:02)
| | | Да я всё надеюсь, кто-нибудь заглянет на форум и посоветует чего-нибудь...
Думаете зря надеюсь? : (... | |
| |
|
|
| |
|
|
| |
для: Eugene77
(29.12.2007 в 16:50)
| | | Unkind прав | |
| |
|
|
| |
|
|
| |
для: Eugene77
(28.12.2007 в 18:25)
| | | По-моему, тут тупо нужна таблица символов, которые модифицируют (например, "И") с диакритическими символами и монолитами.
Сейчас попробовал получить "Й" двумя способами: "\xD0\x98\xCC\x86" и "\xD0\x99".
Так вот я не вижу, глядя на таблицу символов в Unicode и на эти коды, никакой закономерности, позволяющей создать алгоритм преобразования без этой таблицы. | |
| |
|
|
| |
|
|
| |
для: Unkind
(29.12.2007 в 16:49)
| | | >По-моему, тут тупо нужна таблица символов, которые модифицируют (например, "И") с диакритическими символами и монолитами.
Убежал в googles искать таблицы соответствия диакритических символов и мополитов : )
Как вернусь - сообщу : ) | |
| |
|
|
| |
|
|
| |
для: Unkind
(29.12.2007 в 16:49)
| | | http://dev.w3.org/cvsweb/charlint/xml1.1test/Overview.html?rev=1.66
кажется это по теме.
завтра разберусь.
Только размер данных пугает. | |
| |
|
|
| |
|
|
| |
для: Eugene77
(30.12.2007 в 21:24)
| | | Посмотрите, кстати, phpBB3 source | |
| |
|
|
| |
|
|
| |
для: Unkind
(30.01.2008 в 23:01)
| | | >Посмотрите, кстати, phpBB3 source
Хорошо бы ещё узнать, где его посмотреть, этот source.
Впрочем, если нет ссылки под рукой, - пойду Гуглить | |
| |
|
|
|