Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
PHP 5. На примерах. Авторы: Кузнецов М.В., Симдянов И.В., Голышев С.В. Объектно-ориентированное программирование на PHP. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель PHP 5 / 6 (3 издание). Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Разное

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Как выбрать основную мысль из набора тезисов?
 
 автор: Владимир55   (11.04.2010 в 21:17)   письмо автору
 
 

В массиве содержатся такие строки (пример):

Свежие овощи поставляют в Москву овощеводы Туркмении
Распустились первоцветы
Весну я не люблю, весной я болен
Овощи не свежие, ибо их поставляют из дальних областей
Ты любишь осень, а я люблю весну
Просыпается медведь после зимней спячки
Теплицы «Рогожино» поставляют свежие овощи к праздничному столу москвичей
Тает снег, бегут ручьи
Люблю все времена года, а весну в особенности
Куда поставляют свежие овощи прежде всего?


Здесь просматриваются две концепции:
1. трехсловная «поставляют свежие овощи»
2. двухсловная «люблю весну».

Собственно, в этом и состоит задача: проанализировать массив без стоп-слов, выделив из него строки, содержащие единую концепцию (не менее двух слов). При этом словоформы в расчет не берем, анализируя текст «как есть».

Какой алгоритм позволит это сделать наилучшим образом?

  Ответить  
 
 автор: Владимир55   (14.04.2010 в 15:08)   письмо автору
 
   для: Владимир55   (11.04.2010 в 21:17)
 

Разве что попробовать простым перебором пар, троек и четырехсловий...

  Ответить  
 
 автор: Trianon   (14.04.2010 в 15:31)   письмо автору
 
   для: Владимир55   (14.04.2010 в 15:08)
 

Простой перебор это грустно.
Тут, по-моему, стоит применить частостный словарь, преобразование формы, а дальше итеративно - кроссоединение и анализ пересечений, опять кроссоединение и анализ и т.д. пока все наборы не всплывут.

  Ответить  
 
 автор: Eugene77   (14.04.2010 в 16:55)   письмо автору
 
   для: Trianon   (14.04.2010 в 15:31)
 

Как вы себе представляете сделать "преобразование формы"?

  Ответить  
 
 автор: Trianon   (14.04.2010 в 17:28)   письмо автору
 
   для: Eugene77   (14.04.2010 в 16:55)
 

а вот это уже не тема для открытого обсуждения
Могу сказать, что такие формы есть.

  Ответить  
 
 автор: Владимир55   (14.04.2010 в 17:02)   письмо автору
 
   для: Trianon   (14.04.2010 в 15:31)
 

Да, так интересней!
Частотный словарь уже выявил любопытные тенденции, которые могут упростить последующий анализ пересечений.

Спасибо за идею!

  Ответить  
 
 автор: Eugene77   (15.04.2010 в 20:02)   письмо автору
 
   для: Владимир55   (14.04.2010 в 17:02)
 

А вы не могли бы подсказать ссылочку на частотный словарь?

  Ответить  
 
 автор: Владимир55   (15.04.2010 в 20:06)   письмо автору
 
   для: Eugene77   (15.04.2010 в 20:02)
 

Я его собрал скриптом из обрабатываемого контента.

  Ответить  
 
 автор: Eugene77   (16.04.2010 в 19:44)   письмо автору
 
   для: Владимир55   (15.04.2010 в 20:06)
 

Так это получилось что каждое слово встречается много раз, изменяясь по числам, падежам итд?

  Ответить  
 
 автор: Владимир55   (16.04.2010 в 20:56)   письмо автору
 
   для: Eugene77   (16.04.2010 в 19:44)
 

Словоформы я приводил к каноническому виду по упрощенной схеме. В моем случае это допустимо, ибо в анализе было всего 18 тысяч фраз, а уникальных набралось меньше трех тысяч. Мелочи поправил вручную.

Сейчас уже задача решена полностью. В целом, неплохо получилось.

  Ответить  
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования