AGAVA SpamProtexx – обучаемый фильтр, основанный на проверке содержания сообщений. Он органично объединяет в себе ключевые достоинства последних разработок в области борьбы со спамом, успешно решает ряд традиционных проблем и, при всем этом, очень прост в настройке и использовании благодаря дружелюбному интерфейсу. AGAVA SpamProtexx одинаково быстро и эффективно взаимодействует со всеми почтовыми клиентами, не требуя их настройки.

Отличительные черты программы – персональность и обучаемость. Каждый человек имеет собственные критерии для оценки входящей корреспонденции, и они могут сильно различаться в зависимости от сферы деятельности, склонностей и интересов. SpamProtexx в распознавании спама исходит именно из личных предпочтений пользователя. Фильтр анализирует предоставляемые примеры «спама» и «не-спама», формулирует для себя пользовательские критерии в алгоритмах сортировки, постоянно дорабатывает белый список и – как итог - достигает практически 100% эффективности в распознавании ненужной почты.

Корреспонденцию, признанную спамом, SpamProtexx не удаляет, а перемещает в отдельную папку. Содержимое папки можно проверить в любой удобный момент, не отвлекаясь поминутно на каждое пришедшее письмо. Это значительно сокращает временные издержки, связанные с обилием спам-почты, и исключает вероятность случайной утери важных писем.

Механизм идентификации основан на Байесовском алгоритме. В SpamProtexx решены проблемы, характерные для большинства внедрений Байесовской концепции:

  • SpamProtexx использует сложную формулу выведения итогового спам-коэффициента для сообщений, избегая тем самым «упрощённого расчёта»;
  • SpamProtexx принимает во внимание фактор человеческой ошибки в процессе обучения и предоставляет возможности для ее исправления;
  • SpamProtexx защищён от излишнего обучения, т.к. классифицирует почту, прежде чем анализировать ее в качестве примера;
  • SpamProtexx использует синтаксический анализатор HTML, чтобы исключить влияние HTML-тагов на классификацию;
  • SpamProtexx определяет служебные части речи и исключает их из расчёта, чтобы не снижать качества фильтрации;
  • Spamprotexx успешно анализирует письма даже на основе заголовка из 2-3 слов.

К достоинствам программы следует также отнести отсутствие ограничений на число фильтруемых почтовых ящиков и возможность одновременной работы с любыми другими спам-фильтрами. SpamProtexx  поддерживает протоколы POP3, IMAP и SMTP. Антиспам - программа автоматически определяет и поддерживает SSL-соединения по указанным протоколам.

Умный алгоритм и база данных

Большинство внедрений Байесовской концепции имеет достаточно проблем, решение которых предусмотрено в Spamprotexx.

1.Чувствительность к ошибкам в обучении.

Если Вы ошибочно представили сообщение для обучения не в ту категорию (не-спам в спам и наоборот), то большинство фильтров внесёт изменения в фильтрационную базу данных, что критично отразится на качестве классификации: сообщения, на примере которых Вы уже обучали фильтр, он будет не в состоянии классифицировать правильно.

Spamprotexx использует некоторые ноу-хау, которые следят за состоянием базы данных и исключают вышеописанные эффекты. Кроме того, если Вы, исправляя ошибку, просто пошлёте то же самое сообщение для обучения в нужный класс, то ошибочное предыдущее представление будет удалено.

Излишнее обучение.

Спам часто приходит типовыми пачками — таким образом, иногда Вы предоставляете для обучения спам-примеры одного класса. Большинство фильтров, обучаясь на этих примерах, в результате будет получать всё большие коэффициенты, что приведёт к так называемому излишнему обучению базы данных.

Spamprotexx решает эту проблему, классифицируя каждое сообщение перед тем как обучаться на его примере. Если ему удаётся его классифицировать, то он не допустит это сообщение для обучения. Такой подход страхует базу данных от излишнего обучения на примерах одного и того же типа.

2. HTML-тэги.

Традиционные Байесовские фильтры имеют тенденцию ошибочно реагировать на HTML-сообщения. Это происходит потому, что большинство спам-посланий приходит в виде HTML, и, когда такие послания представляются для обучения, то стандартные HTML-тэги начинают восприниматься как спам-слова.

Spamprotexx использует синтаксический анализатор HTML, чтобы исключить влияние тэгов на классификацию. Вместо включения всех тэгов в спам-слова, Spamprotexx обращает внимание на их свойства — шрифты, параграфы, тело, изображения и т.д. К примеру, Spamprotexx способен обнаружить и запомнить, что спам-сообщения часто создаются с использованием шрифтов определённых цветов, размеров и типов.

3.Заголовки сообщений.

Письма часто бывают короткими. Содержание может заключаться всего в нескольких словах в теле письма или даже в строке Subject. Некоторые фильтры не могут классифицировать такие сообщения правильно, поскольку для принятия решения им необходимо больше содержания в теле письма.

Spamprotexx использует заголовки сообщений (1-2 килобайта информации) для успешной классификации. В заголовках содержится много информации, помогающей Spamprotexx принять правильное решение. Поэтому даже очень короткое сообщение будет правильно классифицировано Spamprotexx.

4.Служебные части речи.

Есть много слов (таких, как предлоги), которые не являются характерными для спама или не-спама. Как результат, происходит снижение качества, потому что фильтры в большинстве своём скорее учатся на спам-примерах, нежели на обычных письмах.

Spamprotexx имеет стоп-лист для таких слов, чтобы не использовать их с целью классификации.