Как выбрать основную мысль из набора тезисов?

Главная страница

Создание сайтов

Блог Кузнецова М.В.

Статьи о PHP

PHP-скрипты

Статьи об Apache

Форум С++

Консультации

Форум "Про Жизнь"

Форум:	Форум PHP	Форум Apache	Форум Регулярные Выражения	Форум MySQL	HTML+CSS+JavaScript	Форум Flash	Разное
Новые темы:	0	0	0	0	0	0	0

Здравствуйте, Посетитель!

вид форума:

тема: Как выбрать основную мысль из набора тезисов?

следующая тема

предыдущая тема

	автор: Владимир55 (11.04.2010 в 21:17) письмо автору
	В массиве содержатся такие строки (пример): Свежие овощи поставляют в Москву овощеводы Туркмении Распустились первоцветы Весну я не люблю, весной я болен Овощи не свежие, ибо их поставляют из дальних областей Ты любишь осень, а я люблю весну Просыпается медведь после зимней спячки Теплицы «Рогожино» поставляют свежие овощи к праздничному столу москвичей Тает снег, бегут ручьи Люблю все времена года, а весну в особенности Куда поставляют свежие овощи прежде всего? Здесь просматриваются две концепции: 1. трехсловная «поставляют свежие овощи» 2. двухсловная «люблю весну». Собственно, в этом и состоит задача: проанализировать массив без стоп-слов, выделив из него строки, содержащие единую концепцию (не менее двух слов). При этом словоформы в расчет не берем, анализируя текст «как есть». Какой алгоритм позволит это сделать наилучшим образом?
	Ответить

	автор: Владимир55 (14.04.2010 в 15:08) письмо автору
	для: Владимир55 (11.04.2010 в 21:17)
	Разве что попробовать простым перебором пар, троек и четырехсловий...
	Ответить

	автор: Trianon (14.04.2010 в 15:31) письмо автору
	для: Владимир55 (14.04.2010 в 15:08)
	Простой перебор это грустно. Тут, по-моему, стоит применить частостный словарь, преобразование формы, а дальше итеративно - кроссоединение и анализ пересечений, опять кроссоединение и анализ и т.д. пока все наборы не всплывут.
	Ответить

	автор: Eugene77 (14.04.2010 в 16:55) письмо автору
	для: Trianon (14.04.2010 в 15:31)
	Как вы себе представляете сделать "преобразование формы"?
	Ответить

	автор: Trianon (14.04.2010 в 17:28) письмо автору
	для: Eugene77 (14.04.2010 в 16:55)
	а вот это уже не тема для открытого обсуждения Могу сказать, что такие формы есть.
	Ответить

	автор: Владимир55 (14.04.2010 в 17:02) письмо автору
	для: Trianon (14.04.2010 в 15:31)
	Да, так интересней! Частотный словарь уже выявил любопытные тенденции, которые могут упростить последующий анализ пересечений. Спасибо за идею!
	Ответить

	автор: Eugene77 (15.04.2010 в 20:02) письмо автору
	для: Владимир55 (14.04.2010 в 17:02)
	А вы не могли бы подсказать ссылочку на частотный словарь?
	Ответить

	автор: Владимир55 (15.04.2010 в 20:06) письмо автору
	для: Eugene77 (15.04.2010 в 20:02)
	Я его собрал скриптом из обрабатываемого контента.
	Ответить

	автор: Eugene77 (16.04.2010 в 19:44) письмо автору
	для: Владимир55 (15.04.2010 в 20:06)
	Так это получилось что каждое слово встречается много раз, изменяясь по числам, падежам итд?
	Ответить

	автор: Владимир55 (16.04.2010 в 20:56) письмо автору
	для: Eugene77 (16.04.2010 в 19:44)
	Словоформы я приводил к каноническому виду по упрощенной схеме. В моем случае это допустимо, ибо в анализе было всего 18 тысяч фраз, а уникальных набралось меньше трех тысяч. Мелочи поправил вручную. Сейчас уже задача решена полностью. В целом, неплохо получилось.
	Ответить