|
|
|
| В массиве встречаются строки, содержащие в себе дважды одну и ту же фразу. Например:
автокредит ак барс банк в казани автокредит ак барс банк в казани
автокредит альфа банк уфа автокредит альфа банк уфа
автокредит альфа-банка красноярск автокредит альфа-банка красноярск
|
Максимальное количество слов в одном элементе неопределенно, но не очень большое – приблизительно десять-пятнадцать.
Есть ли возможность автоматически определять факт удвоения текста и удалять дубль? | |
|
|
|
|
|
|
|
для: Владимир55
(21.01.2012 в 14:32)
| | ну можно попробовать разбить строку через explode(), а потом полученный массив обработать функцией array_unique()
это как вариант....
можно регулярными попробовать сделать... | |
|
|
|
|
|
|
|
для: Slo_Nik
(21.01.2012 в 14:39)
| | Спасибо, идея интересная! | |
|
|
|
|
|
|
|
для: Владимир55
(21.01.2012 в 14:32)
| | Быстро и просто не получится... сначала нужно составить индекс фраз, потом уже опираясь на индекс проверить сколько раз входит эта фраза в строку и сколько вообще строк с такой фразой.
PS Вообще так поисковые системы и начинаются :))), а если честно вам вероятно стоит посмотреть в сторону алгоритма полнотекстового поиска (причем собственного варианта, а не библиотечного, скажем, из MySQL). | |
|
|
|
|
|
|
|
для: cheops
(21.01.2012 в 14:50)
| | Да, это было бы великолепно! Тем более, что при внимательном изучении обнаружилось, что в некоторых дублях слова перставлены местами. | |
|
|
|
|
|
|
|
для: Владимир55
(21.01.2012 в 15:20)
| | вот об этом и я подумал ))) | |
|
|
|