Про Байесовский фильтр

Форум:	Форум PHP	Форум Apache	Форум Регулярные Выражения	Форум MySQL	HTML+CSS+JavaScript	Форум Flash	Разное
Новые темы:	0	0	0	0	0	0	0

Здравствуйте, Посетитель!

вид форума:

тема: Про Байесовский фильтр

следующая тема

предыдущая тема

автор: Loki (18.08.2006 в 23:15) письмо автору

Поискал тут описание алгоритма... нашел
http://swsoft.nsu.ru/~conqueror/docs/BayesAlgorithm.htm
Как будто не очень сложно...
Правда, остаются мелкие заковырки: по каким признакам выделять токены? Рекомендуется для этих целей выделять не только слова, но и элементы оформления.
Далее. Организация хранения... если я правильно понял, то достаточно будет создать пару таблиц структуры

слово | количество упоминаний

одна таблица для спамных слов, другая - нет. В принципе, можно и в одну объединить. Да, еще где-то надо хранить общее количество обработанных писем.
Остается открытым вопрос о скорости работы данного сооружения: для каждого элемента сообщения надо запросить вероятность его спамности. Для сообщения из десятка слов это два десятка запросов... Может быть, есть возможность переложить все это на плечи mysql?
В общем, алгоритм есть... Избаваим форумы от спаммеров?:)

	автор: cheops (19.08.2006 в 12:18) письмо автору
	для: Loki (18.08.2006 в 23:15)
	Мне кажется разумно в качестве "слова" выцелять URL...

	автор: Loki (19.08.2006 в 12:32) письмо автору
	для: cheops (19.08.2006 в 12:18)
	Тоже вариант. Но тогда байес нафг не нужен. Просто форумы обычно посвящены определенной тематике, так что спам из них сильно лексически выбивается... Почитал обширную статью на яндексе, посвященную борьбе со спамом. Там говорится что байес требует индивидуальной настройки - "усредненный" фильтр будет иметь очень низкую эффективность.

	автор: cheops (19.08.2006 в 12:36) письмо автору
	для: Loki (19.08.2006 в 12:32)
	Да это именно поэтому нельзя создать общую базу спама - для каждого ящика или форума база будет различной.

	автор: Loki (19.08.2006 в 12:44) письмо автору
	для: cheops (19.08.2006 в 12:36)
	Так я и не предлагаю базу - это было бы глупо. Я предлагаю механизм... или точнее, на данном этапе просто оценить его "ресурсолюбительство":)

вверх

Форум PHP