Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
MySQL 5. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Кодировка в массиве
 
 автор: aetern   (30.08.2010 в 20:26)   письмо автору
 
 

Скажите, как эффективнее изменить кодировку с win на utf8 в многомерном массиве. Спасибо.

  Ответить  
 
 автор: psychomc   (30.08.2010 в 20:48)   письмо автору
 
   для: aetern   (30.08.2010 в 20:26)
 

применить ко всем элемента ф-цию array_map, а в функции обратного вызова использовать mb_convert_encoding
еще мб как вариант можно преобразовать массив в строку, перекодировать строку и собрать обратно в массив. хотя первый вариант мне кажется лучше

  Ответить  
 
 автор: aetern   (30.08.2010 в 20:59)   письмо автору
 
   для: psychomc   (30.08.2010 в 20:48)
 

Вообще массив появляется после file_get_contents() и unserialize(), может где-то на этих стадиях делать перекодировку?

  Ответить  
 
 автор: psychomc   (30.08.2010 в 21:17)   письмо автору
 
   для: aetern   (30.08.2010 в 20:59)
 

file_get_contents возвращает строку. можно конечно

  Ответить  
 
 автор: aetern   (30.08.2010 в 21:32)   письмо автору
 
   для: psychomc   (30.08.2010 в 21:17)
 

В том-то и сложность, что возвращенная строка - это сериализированный массив и при mb_convert_encoding() или conv() идет ошибка unserialize().
Может как-то рег.выражениями переделывать строки?

  Ответить  
 
 автор: psychomc   (30.08.2010 в 21:38)   письмо автору
 
   для: aetern   (30.08.2010 в 21:32)
 

не имел дела с сериализацией, поэтому вряд ли что-нибудь адекватное посоветую по этому вопросу.
думаю рег.выражениями не стоит. я бы на вашем месте кодировал бы массив поэлементно тогда.
мб сейчас кто-нибудь посоветует подход лучше

  Ответить  
 
 автор: aetern   (30.08.2010 в 21:50)   письмо автору
 
   для: psychomc   (30.08.2010 в 21:38)
 

Вообще-то после сериализации массив создается, но перекодировка не происходит и выдает предупреждение: Notice: unserialize() Error at offset 56 of 3338 bytes
Наверное придется каждый элемент массива перекодировать в цикле.
Может у кого есть другие варианты?

  Ответить  
 
 автор: psychomc   (30.08.2010 в 21:56)   письмо автору
 
   для: aetern   (30.08.2010 в 21:50)
 

можно и не в цикле. есть еще array_map

  Ответить  
 
 автор: sim5   (30.08.2010 в 21:56)   письмо автору
 
   для: aetern   (30.08.2010 в 21:50)
 

После сериализации массива ни какого не будет, а будет строка, а массив из нее можно получить только после десериализации. Notice: unserialize()...., это уже вы что-то косячите...

  Ответить  
 
 автор: aetern   (30.08.2010 в 22:03)   письмо автору
 
   для: sim5   (30.08.2010 в 21:56)
 

Да, я оговорился, верно читать предыдущий мой пост: "после десериализации". Я скачиваю сериализованный на удаленном сервере массив (БД) в win-1251 и пытаюсь переделать его данные в utf-8.

  Ответить  
 
 автор: sim5   (30.08.2010 в 22:07)   письмо автору
 
   для: aetern   (30.08.2010 в 22:03)
 

Многомерный массив, это понятие резиновое, поэтому возможно вам хватит array_walk вкупе с array_map для решения задачи, а возможно и проход в цикле потребуется. И не mb_чего-то, а просто iconv().
А если ошибка unserialize(), то это до конвертации баг ищите.

  Ответить  
 
 автор: Саня   (31.08.2010 в 09:18)   письмо автору
 
   для: aetern   (30.08.2010 в 21:50)
 

Нельзя перед десериализацией проводить перекодировку, так как изменяется длина строк.
a:1:{i:0;s:6:"строка";}
Если присмотреться к формату, можно заметить что определяется массив с единственным строковым элементом длиной 6. В cp1251 каждый символ кодируется лодним байтом.
s:6:"строка" - говорит нам, что это строка длиной 6 символов (а точнее 6 байт).

Русские (и многие другие) символы кодируются более чем одним байтом в UTF-8, поэтому если перед десериализацией перекодировать строку, получится следующее:
a:1:{i:0;s:6:"строка";} - что не является правдой, так как теперь строка по факту 12 символов (байт), а указано 6. Поэтому unserialize() считает строку невалидной и выплёвывает ошибку.

<?
$a 
unserialize(...);
function 
convert(&$item$key) {
  if ( 
is_string($item) ) $item iconv('cp1251''utf-8'$item);
}
array_walk_recursive($a'convert');
print_r($a);

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования