|
|
|
| Столкнулся с такой задачей.
Есть база, необходимо отсортировать записи по языку:
- русский язык
- английский язык
- китайский язык
Как бы поступить? | |
|
|
|
|
|
|
|
для: bartik
(24.08.2011 в 19:47)
| | я бы добавил в таблицу ещё одно поле int(1) где и хранил бы идентификатор языка так сказать.
0 - русский язык
1 - английский язык
2 - китайский язык | |
|
|
|
|
|
|
|
для: f111
(24.08.2011 в 19:56)
| | да нет, я так понимаю человеку нужно кучу разгрести | |
|
|
|
|
|
|
|
для: Valick
(24.08.2011 в 20:24)
| | ааааа, я думал база ещё на стадии разработки. | |
|
|
|
|
|
|
|
для: bartik
(24.08.2011 в 19:47)
| | наверное надо сделать алфавиты для каждого из языков и анализировать текст на каждый символ и собственно каких символов какого алфавита встречается больше. | |
|
|
|
|
|
|
|
для: sl1p
(24.08.2011 в 21:03)
| | это понятно) а через какую функцию производить анализ? | |
|
|
|
|
|
|
|
для: bartik
(25.08.2011 в 21:01)
| | так вы разрабатываете базу или ковыряетесь в чужой?
сколько там записей? | |
|
|
|
|
|
|
|
для: bartik
(25.08.2011 в 21:01)
| | алфавиты я думаю сами допишете :)
<?php
$text = 'Мисс Вселенная — Miss Universe ежегодный международный конкурс красоты, один из самых престижных конкурсов красоты в мире.
Первый конкурс был проведен в Лонг-Бич и на нём победила Арми Куусела из Финляндии.
Конкурс был впервые показан по телевидению в 1955 году. До 1971 года конкурс проводился в США, но с 1972 он каждый год проводится в новой стране.
В 2002 году его победителем стала Мисс России Оксана Фёдорова. Однако она потеряла титул после того, как не смогла выполнить все связанные с ним обязанности.
В 2005 году победила Наталья Глебова, Мисс Канада, родившаяся в России, Туапсе.
'; // текст который собственно нужно анализировать
$alphabets = array( // язык => алфавит (только нижний регистр)
'ru' => 'абвг',
'en' => 'abcde'
);
$occurrences_counter = array();
foreach($alphabets as $lang => $alphabet)
{
$occurrences_counter[$lang] = 0;
for($i=0; $i < mb_strlen($alphabet); $i++)
{
$occurrences_counter[$lang] += mb_substr_count(mb_strtolower($text), $alphabet[$i]);
}
}
echo '<pre>';
print_r($occurrences_counter);
echo '</pre>';
$language = array_search(max($occurrences_counter), $occurrences_counter);
echo $language;
/*
Array
(
[ru] => 79
[en] => 2
)
ru
*/
?>
|
| |
|
|
|
|
|
|
|
для: sl1p
(25.08.2011 в 22:10)
| | count_chars() | |
|
|
|
|
|
|
|
для: nikita2206
(27.08.2011 в 00:19)
| | Моя разработка, единственное надо ещё сранивать каких букв больше, но мне это не потребовалось.
<?php
function abc_new($var){
$var = str_replace(" ","",$var);
$var = str_split($var);
return array($var);
}
function language($sub_text){
$_langs = array(
'en'=>array('a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z'),
'ru'=>array('а','б','в','г','д','е','ё','ж','з','и','й','к','л','м','н','о','п','р','с','т','у','ф','х','ц','ч','ш','щ','ъ','ы','ь','э','ю','я'));
$sub_text = trim($sub_text);
$sub_text = strtolower($sub_text);
$sub_text = strip_tags($sub_text);
$text = abc_new($sub_text);
$rus = array_intersect($_langs[ru],$text[0]);
$eng = array_intersect($_langs[en],$text[0]);
?>
|
| |
|
|
|
|
|
|
|
для: bartik
(27.08.2011 в 22:09)
| | Потребовалось опять это сделать, совсем забыл что уже сделал такую функцию, поиск освежил мне память.
Почему-то выложил в прошлый раз функцию не полностью, теперь выкладываю полностью:
<?php
function abc_new($var){
$var = str_replace(" ","",$var);
$var = str_split($var);
return array($var);
}
function language($sub_text){
$_langs = array(
'en'=>array('a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z'),
'ru'=>array('а','б','в','г','д','е','ё','ж','з','и','й','к','л','м','н','о','п','р','с','т','у','ф','х','ц','ч','ш','щ','ъ','ы','ь','э','ю','я'));
$sub_text = trim($sub_text);
$sub_text = strtolower($sub_text);
$sub_text = strip_tags($sub_text);
$text = abc_new($sub_text);
$rus = array_intersect($_langs[ru],$text[0]);
$eng = array_intersect($_langs[en],$text[0]);
if(count($rus) > count($eng)){
return "Russian";
}else{
return "English";
}
return "None";
}
?>
|
| |
|
|
|
|