Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В. PHP. Практика создания Web-сайтов (второе издание). Авторы: Кузнецов М.В., Симдянов И.В. Социальная инженерия и социальные хакеры. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Поиск совпадений
 
 автор: Eugene77   (18.06.2008 в 21:13)   письмо автору
 
 

У меня есть примерно 10000 текстовых отрывков примерно по 100 - 300 слов.
Задача составить таблицу точных повторений более, чем по 8 слов подряд.
То есть надо узнать, нет ли одинаковых словесных цепочек в этих 10000 отрывков, а если есть,
то запомнить где.

Трудность в том, чтобы сочинить быстрый алгоритм.

Подскажите идею!

   
 
 автор: AcidTrash   (18.06.2008 в 22:40)   письмо автору
 
   для: Eugene77   (18.06.2008 в 21:13)
 

Судя по вашему ТЗ, это напоминает алгоритм индексирования Яндекса(в частности насчет зеркал).

   
 
 автор: Eugene77   (19.06.2008 в 20:57)   письмо автору
 
   для: AcidTrash   (18.06.2008 в 22:40)
 

Этот алгоритм где-то описан?

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования