Как определить язык?

Главная страница

Создание сайтов

Блог Кузнецова М.В.

Статьи о PHP

PHP-скрипты

Статьи об Apache

Форум С++

Консультации

Форум "Про Жизнь"

Форум:	Форум PHP	Форум Apache	Форум Регулярные Выражения	Форум MySQL	HTML+CSS+JavaScript	Форум Flash	Разное
Новые темы:	0	0	0	0	0	0	0

Здравствуйте, Посетитель!

вид форума:

тема: Как определить язык?

следующая тема

предыдущая тема

	автор: bartik (24.08.2011 в 19:47) письмо автору
	Столкнулся с такой задачей. Есть база, необходимо отсортировать записи по языку: - русский язык - английский язык - китайский язык Как бы поступить?
	Ответить

	автор: f111 (24.08.2011 в 19:56) письмо автору
	для: bartik (24.08.2011 в 19:47)
	я бы добавил в таблицу ещё одно поле int(1) где и хранил бы идентификатор языка так сказать. 0 - русский язык 1 - английский язык 2 - китайский язык
	Ответить

	автор: Valick (24.08.2011 в 20:24) письмо автору
	для: f111 (24.08.2011 в 19:56)
	да нет, я так понимаю человеку нужно кучу разгрести
	Ответить

	автор: f111 (24.08.2011 в 21:15) письмо автору
	для: Valick (24.08.2011 в 20:24)
	ааааа, я думал база ещё на стадии разработки.
	Ответить

	автор: sl1p (24.08.2011 в 21:03) письмо автору
	для: bartik (24.08.2011 в 19:47)
	наверное надо сделать алфавиты для каждого из языков и анализировать текст на каждый символ и собственно каких символов какого алфавита встречается больше.
	Ответить

	автор: bartik (25.08.2011 в 21:01) письмо автору
	для: sl1p (24.08.2011 в 21:03)
	это понятно) а через какую функцию производить анализ?
	Ответить

	автор: f111 (25.08.2011 в 21:20) письмо автору
	для: bartik (25.08.2011 в 21:01)
	так вы разрабатываете базу или ковыряетесь в чужой? сколько там записей?
	Ответить

автор: sl1p (25.08.2011 в 22:10) письмо автору

для: bartik (25.08.2011 в 21:01)

алфавиты я думаю сами допишете :)

<?php $text = 'Мисс Вселенная — Miss Universe ежегодный международный конкурс красоты, один из самых престижных конкурсов красоты в мире. Первый конкурс был проведен в Лонг-Бич и на нём победила Арми Куусела из Финляндии. Конкурс был впервые показан по телевидению в 1955 году. До 1971 года конкурс проводился в США, но с 1972 он каждый год проводится в новой стране. В 2002 году его победителем стала Мисс России Оксана Фёдорова. Однако она потеряла титул после того, как не смогла выполнить все связанные с ним обязанности. В 2005 году победила Наталья Глебова, Мисс Канада, родившаяся в России, Туапсе. '; // текст который собственно нужно анализировать $alphabets = array( // язык => алфавит (только нижний регистр) 'ru' => 'абвг', 'en' => 'abcde' ); $occurrences_counter = array(); foreach($alphabets as $lang => $alphabet) { $occurrences_counter[$lang] = 0; for($i=0; $i < mb_strlen($alphabet); $i++) { $occurrences_counter[$lang] += mb_substr_count(mb_strtolower($text), $alphabet[$i]); } } echo '<pre>'; print_r($occurrences_counter); echo '</pre>'; $language = array_search(max($occurrences_counter), $occurrences_counter); echo $language; /* Array ( [ru] => 79 [en] => 2 ) ru */ ?>

Ответить

	автор: nikita2206 (27.08.2011 в 00:19) письмо автору
	для: sl1p (25.08.2011 в 22:10)
	count_chars()
	Ответить

автор: bartik (27.08.2011 в 22:09) письмо автору

для: nikita2206 (27.08.2011 в 00:19)

Моя разработка, единственное надо ещё сранивать каких букв больше, но мне это не потребовалось.

<?php function abc_new($var){ $var = str_replace(" ","",$var); $var = str_split($var); return array($var); } function language($sub_text){ $_langs = array( 'en'=>array('a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z'), 'ru'=>array('а','б','в','г','д','е','ё','ж','з','и','й','к','л','м','н','о','п','р','с','т','у','ф','х','ц','ч','ш','щ','ъ','ы','ь','э','ю','я')); $sub_text = trim($sub_text); $sub_text = strtolower($sub_text); $sub_text = strip_tags($sub_text); $text = abc_new($sub_text); $rus = array_intersect($_langs[ru],$text[0]); $eng = array_intersect($_langs[en],$text[0]); ?>

Ответить

автор: bartik (13.01.2014 в 01:26) письмо автору

для: bartik (27.08.2011 в 22:09)

Потребовалось опять это сделать, совсем забыл что уже сделал такую функцию, поиск освежил мне память.

Почему-то выложил в прошлый раз функцию не полностью, теперь выкладываю полностью:

<?php function abc_new($var){ $var = str_replace(" ","",$var); $var = str_split($var); return array($var); } function language($sub_text){ $_langs = array( 'en'=>array('a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z'), 'ru'=>array('а','б','в','г','д','е','ё','ж','з','и','й','к','л','м','н','о','п','р','с','т','у','ф','х','ц','ч','ш','щ','ъ','ы','ь','э','ю','я')); $sub_text = trim($sub_text); $sub_text = strtolower($sub_text); $sub_text = strip_tags($sub_text); $text = abc_new($sub_text); $rus = array_intersect($_langs[ru],$text[0]); $eng = array_intersect($_langs[en],$text[0]); if(count($rus) > count($eng)){ return "Russian"; }else{ return "English"; } return "None"; } ?>

Ответить