Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В. PHP Puzzles. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Как определить язык?
 
 автор: bartik   (24.08.2011 в 19:47)   письмо автору
 
 

Столкнулся с такой задачей.
Есть база, необходимо отсортировать записи по языку:

- русский язык
- английский язык
- китайский язык

Как бы поступить?

  Ответить  
 
 автор: f111   (24.08.2011 в 19:56)   письмо автору
 
   для: bartik   (24.08.2011 в 19:47)
 

я бы добавил в таблицу ещё одно поле int(1) где и хранил бы идентификатор языка так сказать.

0 - русский язык
1 - английский язык
2 - китайский язык

  Ответить  
 
 автор: Valick   (24.08.2011 в 20:24)   письмо автору
 
   для: f111   (24.08.2011 в 19:56)
 

да нет, я так понимаю человеку нужно кучу разгрести

  Ответить  
 
 автор: f111   (24.08.2011 в 21:15)   письмо автору
 
   для: Valick   (24.08.2011 в 20:24)
 

ааааа, я думал база ещё на стадии разработки.

  Ответить  
 
 автор: sl1p   (24.08.2011 в 21:03)   письмо автору
 
   для: bartik   (24.08.2011 в 19:47)
 

наверное надо сделать алфавиты для каждого из языков и анализировать текст на каждый символ и собственно каких символов какого алфавита встречается больше.

  Ответить  
 
 автор: bartik   (25.08.2011 в 21:01)   письмо автору
 
   для: sl1p   (24.08.2011 в 21:03)
 

это понятно) а через какую функцию производить анализ?

  Ответить  
 
 автор: f111   (25.08.2011 в 21:20)   письмо автору
 
   для: bartik   (25.08.2011 в 21:01)
 

так вы разрабатываете базу или ковыряетесь в чужой?
сколько там записей?

  Ответить  
 
 автор: sl1p   (25.08.2011 в 22:10)   письмо автору
 
   для: bartik   (25.08.2011 в 21:01)
 

алфавиты я думаю сами допишете :)
<?php
$text 
'Мисс Вселенная — Miss Universe ежегодный международный конкурс красоты, один из самых престижных конкурсов красоты в мире.
Первый конкурс был проведен в Лонг-Бич и на нём победила Арми Куусела из Финляндии.
Конкурс был впервые показан по телевидению в 1955 году. До 1971 года конкурс проводился в США, но с 1972 он каждый год проводится в новой стране.
В 2002 году его победителем стала Мисс России Оксана Фёдорова. Однако она потеряла титул после того, как не смогла выполнить все связанные с ним обязанности.
В 2005 году победила Наталья Глебова, Мисс Канада, родившаяся в России, Туапсе.
'
// текст который собственно нужно анализировать

$alphabets = array( // язык => алфавит (только нижний регистр)
    
'ru' => 'абвг',
    
'en' => 'abcde'
);
$occurrences_counter = array();

foreach(
$alphabets as $lang => $alphabet)
{
    
$occurrences_counter[$lang] = 0;
    for(
$i=0$i mb_strlen($alphabet); $i++)
    {
        
$occurrences_counter[$lang] += mb_substr_count(mb_strtolower($text), $alphabet[$i]);
    }
}

echo 
'<pre>';
print_r($occurrences_counter);
echo 
'</pre>';

$language array_search(max($occurrences_counter), $occurrences_counter);
echo 
$language;
/*
Array
(
    [ru] => 79
    [en] => 2
)

ru
*/
?>

  Ответить  
 
 автор: nikita2206   (27.08.2011 в 00:19)   письмо автору
 
   для: sl1p   (25.08.2011 в 22:10)
 

count_chars()

  Ответить  
 
 автор: bartik   (27.08.2011 в 22:09)   письмо автору
 
   для: nikita2206   (27.08.2011 в 00:19)
 

Моя разработка, единственное надо ещё сранивать каких букв больше, но мне это не потребовалось.


<?php
function abc_new($var){
$var str_replace(" ","",$var);
$var str_split($var);
return array(
$var);
}


function 
language($sub_text){

$_langs = array(
              
'en'=>array('a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z'),
              
'ru'=>array('а','б','в','г','д','е','ё','ж','з','и','й','к','л','м','н','о','п','р','с','т','у','ф','х','ц','ч','ш','щ','ъ','ы','ь','э','ю','я'));


$sub_text trim($sub_text);
$sub_text strtolower($sub_text);
$sub_text strip_tags($sub_text);

$text abc_new($sub_text);

$rus array_intersect($_langs[ru],$text[0]);
$eng array_intersect($_langs[en],$text[0]);
?>

  Ответить  
 
 автор: bartik   (13.01.2014 в 01:26)   письмо автору
 
   для: bartik   (27.08.2011 в 22:09)
 

Потребовалось опять это сделать, совсем забыл что уже сделал такую функцию, поиск освежил мне память.

Почему-то выложил в прошлый раз функцию не полностью, теперь выкладываю полностью:



<?php
function abc_new($var){
$var str_replace(" ","",$var);
$var str_split($var);
return array(
$var);
}


function 
language($sub_text){

$_langs = array(
              
'en'=>array('a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z'),
              
'ru'=>array('а','б','в','г','д','е','ё','ж','з','и','й','к','л','м','н','о','п','р','с','т','у','ф','х','ц','ч','ш','щ','ъ','ы','ь','э','ю','я'));


$sub_text trim($sub_text);
$sub_text strtolower($sub_text);
$sub_text strip_tags($sub_text);

$text abc_new($sub_text);

$rus array_intersect($_langs[ru],$text[0]);
$eng array_intersect($_langs[en],$text[0]); 
if(
count($rus) > count($eng)){

return 
"Russian";
}else{

return 
"English";
}


return 
"None";

}
?>

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования