|
|
|
| Скажите, как эффективнее изменить кодировку с win на utf8 в многомерном массиве. Спасибо. | |
|
|
|
|
|
|
|
для: aetern
(30.08.2010 в 20:26)
| | применить ко всем элемента ф-цию array_map, а в функции обратного вызова использовать mb_convert_encoding
еще мб как вариант можно преобразовать массив в строку, перекодировать строку и собрать обратно в массив. хотя первый вариант мне кажется лучше | |
|
|
|
|
|
|
|
для: psychomc
(30.08.2010 в 20:48)
| | Вообще массив появляется после file_get_contents() и unserialize(), может где-то на этих стадиях делать перекодировку? | |
|
|
|
|
|
|
|
для: aetern
(30.08.2010 в 20:59)
| | file_get_contents возвращает строку. можно конечно | |
|
|
|
|
|
|
|
для: psychomc
(30.08.2010 в 21:17)
| | В том-то и сложность, что возвращенная строка - это сериализированный массив и при mb_convert_encoding() или conv() идет ошибка unserialize().
Может как-то рег.выражениями переделывать строки? | |
|
|
|
|
|
|
|
для: aetern
(30.08.2010 в 21:32)
| | не имел дела с сериализацией, поэтому вряд ли что-нибудь адекватное посоветую по этому вопросу.
думаю рег.выражениями не стоит. я бы на вашем месте кодировал бы массив поэлементно тогда.
мб сейчас кто-нибудь посоветует подход лучше | |
|
|
|
|
|
|
|
для: psychomc
(30.08.2010 в 21:38)
| | Вообще-то после сериализации массив создается, но перекодировка не происходит и выдает предупреждение: Notice: unserialize() Error at offset 56 of 3338 bytes
Наверное придется каждый элемент массива перекодировать в цикле.
Может у кого есть другие варианты? | |
|
|
|
|
|
|
|
для: aetern
(30.08.2010 в 21:50)
| | можно и не в цикле. есть еще array_map | |
|
|
|
|
|
|
|
для: aetern
(30.08.2010 в 21:50)
| | После сериализации массива ни какого не будет, а будет строка, а массив из нее можно получить только после десериализации. Notice: unserialize()...., это уже вы что-то косячите... | |
|
|
|
|
|
|
|
для: sim5
(30.08.2010 в 21:56)
| | Да, я оговорился, верно читать предыдущий мой пост: "после десериализации". Я скачиваю сериализованный на удаленном сервере массив (БД) в win-1251 и пытаюсь переделать его данные в utf-8. | |
|
|
|
|
|
|
|
для: aetern
(30.08.2010 в 22:03)
| | Многомерный массив, это понятие резиновое, поэтому возможно вам хватит array_walk вкупе с array_map для решения задачи, а возможно и проход в цикле потребуется. И не mb_чего-то, а просто iconv().
А если ошибка unserialize(), то это до конвертации баг ищите. | |
|
|
|
|
|
|
|
для: aetern
(30.08.2010 в 21:50)
| | Нельзя перед десериализацией проводить перекодировку, так как изменяется длина строк.
a:1:{i:0;s:6:"строка";}
Если присмотреться к формату, можно заметить что определяется массив с единственным строковым элементом длиной 6. В cp1251 каждый символ кодируется лодним байтом.
s:6:"строка" - говорит нам, что это строка длиной 6 символов (а точнее 6 байт).
Русские (и многие другие) символы кодируются более чем одним байтом в UTF-8, поэтому если перед десериализацией перекодировать строку, получится следующее:
a:1:{i:0;s:6:"строка";} - что не является правдой, так как теперь строка по факту 12 символов (байт), а указано 6. Поэтому unserialize() считает строку невалидной и выплёвывает ошибку.
<?
$a = unserialize(...);
function convert(&$item, $key) {
if ( is_string($item) ) $item = iconv('cp1251', 'utf-8', $item);
}
array_walk_recursive($a, 'convert');
print_r($a);
|
| |
|
|
|