|
|
|
| Мне нужно, чтобы проверять страницы занесенные в базу на наличие определенных слов в тексте страницы. Они могут быть в разных кодировках.
Вот например страница http://www.varvar.ru/arhiv/gallery/index.html
У нее в заголовке стоит <meta http-equiv="Content-Type" content="text/html; charset=windows-1251">
Когда считываю при помощи file_get_contents, то текст получается в koi8
Приходиться конвертить $source=convert_cyr_string($source,'k','w');
Но на остальных сайтах все нормально
Как кроме charset=windows-1251" можно еще точнее определить кодировку и почему такое происходит?
Помогите! | |
|
|