Есть ли возможность автоматически удалять смысловые дубли?

Главная страница

Создание сайтов

Блог Кузнецова М.В.

Статьи о PHP

PHP-скрипты

Статьи об Apache

Форум С++

Консультации

Форум "Про Жизнь"

Форум:	Форум PHP	Форум Apache	Форум Регулярные Выражения	Форум MySQL	HTML+CSS+JavaScript	Форум Flash	Разное
Новые темы:	0	0	0	0	0	0	0

Здравствуйте, Посетитель!

вид форума:

тема: Есть ли возможность автоматически удалять смысловые дубли?

следующая тема

предыдущая тема

автор: Владимир55 (21.01.2012 в 14:32) письмо автору

В массиве встречаются строки, содержащие в себе дважды одну и ту же фразу. Например:

автокредит ак барс банк в казани автокредит ак барс банк в казани автокредит альфа банк уфа автокредит альфа банк уфа автокредит альфа-банка красноярск автокредит альфа-банка красноярск

Максимальное количество слов в одном элементе неопределенно, но не очень большое – приблизительно десять-пятнадцать.

Есть ли возможность автоматически определять факт удвоения текста и удалять дубль?

Ответить

	автор: Slo_Nik (21.01.2012 в 14:39) письмо автору
	для: Владимир55 (21.01.2012 в 14:32)
	ну можно попробовать разбить строку через explode(), а потом полученный массив обработать функцией array_unique() это как вариант.... можно регулярными попробовать сделать...
	Ответить

	автор: Владимир55 (21.01.2012 в 15:21) письмо автору
	для: Slo_Nik (21.01.2012 в 14:39)
	Спасибо, идея интересная!
	Ответить

	автор: cheops (21.01.2012 в 14:50) письмо автору
	для: Владимир55 (21.01.2012 в 14:32)
	Быстро и просто не получится... сначала нужно составить индекс фраз, потом уже опираясь на индекс проверить сколько раз входит эта фраза в строку и сколько вообще строк с такой фразой. PS Вообще так поисковые системы и начинаются :))), а если честно вам вероятно стоит посмотреть в сторону алгоритма полнотекстового поиска (причем собственного варианта, а не библиотечного, скажем, из MySQL).
	Ответить

	автор: Владимир55 (21.01.2012 в 15:20) письмо автору
	для: cheops (21.01.2012 в 14:50)
	Да, это было бы великолепно! Тем более, что при внимательном изучении обнаружилось, что в некоторых дублях слова перставлены местами.
	Ответить

	автор: Slo_Nik (21.01.2012 в 15:23) письмо автору
	для: Владимир55 (21.01.2012 в 15:20)
	вот об этом и я подумал )))
	Ответить