| |
|
|
| | Натаскал из Яндекса строки длиной до 100 знаков. Абсолютно совпадающие при фильтрации удалил, но остались такие, что для компьютера разные, а по-существу одно и тоже: переставленные местами слова, разные падежи и т.п.
Хотел для их сличения использовать функцию levenshtein, но в Справочнике для меня недостаточно сведений о её практическом применении. Как на практике выбирать дополнительные параметры? И что делать с полученным значением ИПСТ?
(Справочник, стр. 84-86) | |
| |
|
|
| |
|
|
| |
для: Владимир55
(06.08.2007 в 09:23)
| | | Эта функция возвращает кол-во разницу символов.
По ней вы и решите разные строки или нет.
<%
$str1 = "Сравнить";
$str2 = "СВавнивать";
print_r(levenshtein($str1, $str2)); = 1
|
| |
| |
|
|
| |
|
|
| |
для: Poison
(06.08.2007 в 13:37)
| | | С этим-то ясно!
Но ведь там есть еще хитренькие параметры cost_ins, cost_rep и cost_del ! По каким критериям их устанавливать? И результат уже будет не в виде разности знаков, а в виде какого-то ИПСТ... Как оценить по нему близость строк? Или функция с этими параметрами практического значения не имеет?
Как я понял, и функция similar_text. хотя и выдает другие параметры, но служит для этой же цели.
Какая из них "интеллектуальнее" для сравнения строк? | |
| |
|
|