| |
|
|
| | Поискал тут описание алгоритма... нашел
http://swsoft.nsu.ru/~conqueror/docs/BayesAlgorithm.htm
Как будто не очень сложно...
Правда, остаются мелкие заковырки: по каким признакам выделять токены? Рекомендуется для этих целей выделять не только слова, но и элементы оформления.
Далее. Организация хранения... если я правильно понял, то достаточно будет создать пару таблиц структуры
слово | количество упоминаний
|
одна таблица для спамных слов, другая - нет. В принципе, можно и в одну объединить. Да, еще где-то надо хранить общее количество обработанных писем.
Остается открытым вопрос о скорости работы данного сооружения: для каждого элемента сообщения надо запросить вероятность его спамности. Для сообщения из десятка слов это два десятка запросов... Может быть, есть возможность переложить все это на плечи mysql?
В общем, алгоритм есть... Избаваим форумы от спаммеров?:) | |
| |
|
|
| |
|
|
| |
для: Loki
(18.08.2006 в 23:15)
| | | Мне кажется разумно в качестве "слова" выцелять URL... | |
| |
|
|
| |
|
|
| |
для: cheops
(19.08.2006 в 12:18)
| | | Тоже вариант. Но тогда байес нафг не нужен.
Просто форумы обычно посвящены определенной тематике, так что спам из них сильно лексически выбивается...
Почитал обширную статью на яндексе, посвященную борьбе со спамом. Там говорится что байес требует индивидуальной настройки - "усредненный" фильтр будет иметь очень низкую эффективность. | |
| |
|
|
| |
|
|
| |
для: Loki
(19.08.2006 в 12:32)
| | | Да это именно поэтому нельзя создать общую базу спама - для каждого ящика или форума база будет различной. | |
| |
|
|
| |
|
|
| |
для: cheops
(19.08.2006 в 12:36)
| | | Так я и не предлагаю базу - это было бы глупо. Я предлагаю механизм... или точнее, на данном этапе просто оценить его "ресурсолюбительство":) | |
| |
|
|