|
|
|
| В массиве содержатся такие строки (пример):
Свежие овощи поставляют в Москву овощеводы Туркмении
Распустились первоцветы
Весну я не люблю, весной я болен
Овощи не свежие, ибо их поставляют из дальних областей
Ты любишь осень, а я люблю весну
Просыпается медведь после зимней спячки
Теплицы «Рогожино» поставляют свежие овощи к праздничному столу москвичей
Тает снег, бегут ручьи
Люблю все времена года, а весну в особенности
Куда поставляют свежие овощи прежде всего?
Здесь просматриваются две концепции:
1. трехсловная «поставляют свежие овощи»
2. двухсловная «люблю весну».
Собственно, в этом и состоит задача: проанализировать массив без стоп-слов, выделив из него строки, содержащие единую концепцию (не менее двух слов). При этом словоформы в расчет не берем, анализируя текст «как есть».
Какой алгоритм позволит это сделать наилучшим образом? | |
|
|
|
|
|
|
|
для: Владимир55
(11.04.2010 в 21:17)
| | Разве что попробовать простым перебором пар, троек и четырехсловий... | |
|
|
|
|
|
|
|
для: Владимир55
(14.04.2010 в 15:08)
| | Простой перебор это грустно.
Тут, по-моему, стоит применить частостный словарь, преобразование формы, а дальше итеративно - кроссоединение и анализ пересечений, опять кроссоединение и анализ и т.д. пока все наборы не всплывут. | |
|
|
|
|
|
|
|
для: Trianon
(14.04.2010 в 15:31)
| | Как вы себе представляете сделать "преобразование формы"? | |
|
|
|
|
|
|
|
для: Eugene77
(14.04.2010 в 16:55)
| | а вот это уже не тема для открытого обсуждения
Могу сказать, что такие формы есть. | |
|
|
|
|
|
|
|
для: Trianon
(14.04.2010 в 15:31)
| | Да, так интересней!
Частотный словарь уже выявил любопытные тенденции, которые могут упростить последующий анализ пересечений.
Спасибо за идею! | |
|
|
|
|
|
|
|
для: Владимир55
(14.04.2010 в 17:02)
| | А вы не могли бы подсказать ссылочку на частотный словарь? | |
|
|
|
|
|
|
|
для: Eugene77
(15.04.2010 в 20:02)
| | Я его собрал скриптом из обрабатываемого контента. | |
|
|
|
|
|
|
|
для: Владимир55
(15.04.2010 в 20:06)
| | Так это получилось что каждое слово встречается много раз, изменяясь по числам, падежам итд? | |
|
|
|
|
|
|
|
для: Eugene77
(16.04.2010 в 19:44)
| | Словоформы я приводил к каноническому виду по упрощенной схеме. В моем случае это допустимо, ибо в анализе было всего 18 тысяч фраз, а уникальных набралось меньше трех тысяч. Мелочи поправил вручную.
Сейчас уже задача решена полностью. В целом, неплохо получилось. | |
|
|
|