Google обновляет спам-фильтр Gmail с помощью новой системы RETVec.

Нет комментариев

Система RETVec обнаруживает спам на 38% чаще, чем предыдущий фильтр Gmail, и при этом снижает количество ложных срабатываний.

Что сделал Google?

Компания Google без лишнего шума обновила Gmail, добавив новый спам-фильтр, который, по словам компании, лучше отсеивает нежелательные сообщения и фишинговые письма. 

Новый спам-фильтр основан на “RETVec”, недавно разработанном векторизаторе текста, который может преобразовывать слова в векторы или числовые представления. Разработчики уже давно используют векторизацию текста, чтобы помочь компьютерным моделям интерпретировать и классифицировать человеческий язык, в том числе определять, является ли письмо спамом или нет. 

Проблема в том, что существующие модели классификации текста все еще не могут распознать мошенничество и фишинговые атаки. Это связано с тем, что киберпреступники создают контент, чтобы обойти защиту, например, используют нелатинские символы для создания ссылок на авторитетные бренды. Кроме того, модели классификации текста могут требовать “больших словарей” и вычислительных ресурсов, чтобы отметить вредоносный контент или понять опечатки, пишут исследователи компании в своей статье.

Как решили сложности?

В ответ на это Google разработал RETVec, который обучен обнаруживать и понимать манипуляции на уровне символов, включая опечатки в тексте, и при этом снижает вычислительные затраты.

“Встраивания RETVec обучаются с помощью парного метрического обучения, что гарантирует, что слова, содержащие опечатки, будут встраиваться близко к оригинальному слову”, – пишут исследователи Google.

В течение последнего года Google также тестировала RETVec в системах компании, “чтобы оценить его полезность, и обнаружила, что он очень эффективен для приложений безопасности и защиты от злоупотреблений”, – написала компания в своем блоге. Результаты показали, что RETVec улучшил обнаружение спама на 38 % по сравнению с предыдущим фильтром Gmail.

В то же время RETVec снизил процент ложных срабатываний на 19 %, используя при этом на 83 % меньше вычислительных ресурсов. Благодаря этому “внедрение RETVec стало одним из крупнейших обновлений системы защиты за последние годы”, добавляет Google. Эта же система работает для более чем 100 языков, включая английский.

“Благодаря своей новой архитектуре RETVec работает на всех языках и со всеми символами UTF-8 без предварительной обработки текста, что делает его идеальным кандидатом для развертывания классификации текста на устройствах, в Интернете и в крупных системах”, – говорят в компании.

Кроме того, Google сделала RETVec открытым исходным кодом, что позволяет другим разработчикам также использовать систему в качестве классификатора текста.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *