Форум: Форум PHPФорум ApacheФорум Регулярные ВыраженияФорум MySQLHTML+CSS+JavaScriptФорум FlashРазное
Новые темы: 0000000
C++. Мастер-класс в задачах и примерах. Авторы: Кузнецов М.В., Симдянов И.В. PHP 5/6. В подлиннике. Авторы: Кузнецов М.В., Симдянов И.В. PHP на примерах (2 издание). Авторы: Кузнецов М.В., Симдянов И.В. MySQL на примерах. Авторы: Кузнецов М.В., Симдянов И.В. Самоучитель MySQL 5. Авторы: Кузнецов М.В., Симдянов И.В.
ВСЕ НАШИ КНИГИ
Консультационный центр SoftTime

Форум PHP

Выбрать другой форум

 

Здравствуйте, Посетитель!

вид форума:
Линейный форум Структурный форум

тема: Про Байесовский фильтр
 
 автор: Loki   (18.08.2006 в 23:15)   письмо автору
 
 

Поискал тут описание алгоритма... нашел
http://swsoft.nsu.ru/~conqueror/docs/BayesAlgorithm.htm
Как будто не очень сложно...
Правда, остаются мелкие заковырки: по каким признакам выделять токены? Рекомендуется для этих целей выделять не только слова, но и элементы оформления.
Далее. Организация хранения... если я правильно понял, то достаточно будет создать пару таблиц структуры

слово | количество упоминаний

одна таблица для спамных слов, другая - нет. В принципе, можно и в одну объединить. Да, еще где-то надо хранить общее количество обработанных писем.
Остается открытым вопрос о скорости работы данного сооружения: для каждого элемента сообщения надо запросить вероятность его спамности. Для сообщения из десятка слов это два десятка запросов... Может быть, есть возможность переложить все это на плечи mysql?
В общем, алгоритм есть... Избаваим форумы от спаммеров?:)

   
 
 автор: cheops   (19.08.2006 в 12:18)   письмо автору
 
   для: Loki   (18.08.2006 в 23:15)
 

Мне кажется разумно в качестве "слова" выцелять URL...

   
 
 автор: Loki   (19.08.2006 в 12:32)   письмо автору
 
   для: cheops   (19.08.2006 в 12:18)
 

Тоже вариант. Но тогда байес нафг не нужен.
Просто форумы обычно посвящены определенной тематике, так что спам из них сильно лексически выбивается...
Почитал обширную статью на яндексе, посвященную борьбе со спамом. Там говорится что байес требует индивидуальной настройки - "усредненный" фильтр будет иметь очень низкую эффективность.

   
 
 автор: cheops   (19.08.2006 в 12:36)   письмо автору
 
   для: Loki   (19.08.2006 в 12:32)
 

Да это именно поэтому нельзя создать общую базу спама - для каждого ящика или форума база будет различной.

   
 
 автор: Loki   (19.08.2006 в 12:44)   письмо автору
 
   для: cheops   (19.08.2006 в 12:36)
 

Так я и не предлагаю базу - это было бы глупо. Я предлагаю механизм... или точнее, на данном этапе просто оценить его "ресурсолюбительство":)

   
Rambler's Top100
вверх

Rambler's Top100 Яндекс.Метрика Яндекс цитирования