Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Есть ли возможность автоматически удалять смысловые дубли?
 
 автор: Владимир55   (21.01.2012 в 14:32)   письмо автору
 
 

В массиве встречаются строки, содержащие в себе дважды одну и ту же фразу. Например:
автокредит ак барс банк в казани автокредит ак барс банк в казани 
автокредит альфа банк уфа автокредит альфа банк уфа 
автокредит альфа-банка красноярск автокредит альфа-банка красноярск


Максимальное количество слов в одном элементе неопределенно, но не очень большое – приблизительно десять-пятнадцать.

Есть ли возможность автоматически определять факт удвоения текста и удалять дубль?

  Ответить  
 
 автор: Slo_Nik   (21.01.2012 в 14:39)   письмо автору
 
   для: Владимир55   (21.01.2012 в 14:32)
 

ну можно попробовать разбить строку через explode(), а потом полученный массив обработать функцией array_unique()
это как вариант....
можно регулярными попробовать сделать...

  Ответить  
 
 автор: Владимир55   (21.01.2012 в 15:21)   письмо автору
 
   для: Slo_Nik   (21.01.2012 в 14:39)
 

Спасибо, идея интересная!

  Ответить  
 
 автор: cheops   (21.01.2012 в 14:50)   письмо автору
 
   для: Владимир55   (21.01.2012 в 14:32)
 

Быстро и просто не получится... сначала нужно составить индекс фраз, потом уже опираясь на индекс проверить сколько раз входит эта фраза в строку и сколько вообще строк с такой фразой.

PS Вообще так поисковые системы и начинаются :))), а если честно вам вероятно стоит посмотреть в сторону алгоритма полнотекстового поиска (причем собственного варианта, а не библиотечного, скажем, из MySQL).

  Ответить  
 
 автор: Владимир55   (21.01.2012 в 15:20)   письмо автору
 
   для: cheops   (21.01.2012 в 14:50)
 

Да, это было бы великолепно! Тем более, что при внимательном изучении обнаружилось, что в некоторых дублях слова перставлены местами.

  Ответить  
 
 автор: Slo_Nik   (21.01.2012 в 15:23)   письмо автору
 
   для: Владимир55   (21.01.2012 в 15:20)
 

вот об этом и я подумал )))

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования