Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В. C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В. Программирование. Ступени успешной карьеры. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Нормализация юникода в PHP
 
 автор: Eugene77   (25.12.2007 в 10:30)   письмо автору
 
 

Как нормализуют юникод в PHP?
Есть для этого функции?
В googles ничего конкретного не нашёл. Пишут только что надо
нормализовывать, что есть 4 способа нормализации, но как это делается
практически - остаётся за кадром.

   
 
 автор: mihdan   (25.12.2007 в 11:02)   письмо автору
 
   для: Eugene77   (25.12.2007 в 10:30)
 

>В googles

Я думаю все-таки в google ®

   
 
 автор: Eugene77   (25.12.2007 в 17:13)   письмо автору
 
   для: mihdan   (25.12.2007 в 11:02)
 

Эту страницу я уже смотрел - очень обобщённо написано.
Из неё, кстати, как раз и видно, что нормализация нужна.
Но практических советов нигде не удаётся отыскать, по-крайней мере пока.

   
 
 автор: Unkind   (25.12.2007 в 17:41)   письмо автору
 
   для: Eugene77   (25.12.2007 в 17:13)
 

-

   
 
 автор: Eugene77   (26.12.2007 в 20:40)   письмо автору
 
   для: Eugene77   (25.12.2007 в 17:13)
 

Вы ведь понимаете в чём дело.
Юникод допускает различное написание одной и той же буквы.
Получается, если без предварительной нормализации класть тексты в базу, то
поиск не всегда будет работать.
Значит надо и перед записью в базу, и перед поиском приводить всё к единому
обозначению букв, не так уже в этом случае важно какому.

Но вот как это сделать - ума не приложу.
И ничего не нашёл я в поиске.

   
 
 автор: Eugene77   (27.12.2007 в 19:52)   письмо автору
 
   для: Eugene77   (26.12.2007 в 20:40)
 

Пока искал, всретил вот такие новости, если кому интересно.

В PHP6
Native Unicode strings
A clear separation between Binary, Native (Encoded) Strings and Unicode Strings
UTF16 as internal encoding
All functions and operators work on Normalized Composed Characters (NFC)
All identifiers can contain Unicode characters
Internationalization is explicit, not implicit

На меня, они произвели впечатление.
Кажется мой вопрос просто исчезнет автоматически с переходом на PHP6:
All functions and operators work on Normalized Composed Characters (NFC)

А вот это забавно:
UTF16 as internal encoding
Вторая по internet'ности нация (китайцы), которая к моменту широкого распространения PHP6, скорее всего станет первой, оказалась дискриминированной, так как UTF16 ХАН не поддерживает.

Но это всё пустые разговорчики, а если серьёзно, неужели вы не нормализуете данные в своих базаХ?
Халтура ведь получается!

   
 
 автор: Eugene77   (28.12.2007 в 18:25)   письмо автору
 
   для: Eugene77   (27.12.2007 в 19:52)
 

Видно - быть мне в первых рядах пользователей PHP6

   
 
 автор: mihdan   (29.12.2007 в 13:02)   письмо автору
 
   для: Eugene77   (28.12.2007 в 18:25)
 

Любите с умным человеком поговорить? Или просто мысли вслух

   
 
 автор: Eugene77   (29.12.2007 в 16:50)   письмо автору
 
   для: mihdan   (29.12.2007 в 13:02)
 

Да я всё надеюсь, кто-нибудь заглянет на форум и посоветует чего-нибудь...

Думаете зря надеюсь? : (...

   
 
 автор: mihdan   (29.12.2007 в 17:00)   письмо автору
 
   для: Eugene77   (29.12.2007 в 16:50)
 

Unkind прав

   
 
 автор: Unkind   (29.12.2007 в 16:49)   письмо автору
 
   для: Eugene77   (28.12.2007 в 18:25)
 

По-моему, тут тупо нужна таблица символов, которые модифицируют (например, "И") с диакритическими символами и монолитами.
Сейчас попробовал получить "Й" двумя способами: "\xD0\x98\xCC\x86" и "\xD0\x99".
Так вот я не вижу, глядя на таблицу символов в Unicode и на эти коды, никакой закономерности, позволяющей создать алгоритм преобразования без этой таблицы.

   
 
 автор: Eugene77   (30.12.2007 в 18:15)   письмо автору
 
   для: Unkind   (29.12.2007 в 16:49)
 

>По-моему, тут тупо нужна таблица символов, которые модифицируют (например, "И") с диакритическими символами и монолитами.

Убежал в googles искать таблицы соответствия диакритических символов и мополитов : )
Как вернусь - сообщу : )

   
 
 автор: Eugene77   (30.12.2007 в 21:24)   письмо автору
 
   для: Unkind   (29.12.2007 в 16:49)
 

http://dev.w3.org/cvsweb/charlint/xml1.1test/Overview.html?rev=1.66

кажется это по теме.
завтра разберусь.
Только размер данных пугает.

   
 
 автор: Unkind   (30.01.2008 в 23:01)   письмо автору
 
   для: Eugene77   (30.12.2007 в 21:24)
 

Посмотрите, кстати, phpBB3 source

   
 
 автор: Eugene77   (31.01.2008 в 16:28)   письмо автору
 
   для: Unkind   (30.01.2008 в 23:01)
 

>Посмотрите, кстати, phpBB3 source

Хорошо бы ещё узнать, где его посмотреть, этот source.
Впрочем, если нет ссылки под рукой, - пойду Гуглить

   
 
 автор: Unkind   (31.01.2008 в 22:32)   письмо автору
 
   для: Eugene77   (31.01.2008 в 16:28)
 

На официальном сайте, конечно. :)

http://www.phpbb.com/downloads/olympus.php

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования