Небольшие ИИ-модели научились выявлять фишинг — что это значит для кибербезопасности
Исследование показало, что небольшие языковые модели способны выявлять фишинговые веб-сайты, обрабатывая сокращённую версию HTML-кода. Точность моделей варьировалась от 56% до 90%, что демонстрирует их потенциал, но также подчёркивает зависимость эффективности от конкретной реализации.
По данным Helpnetsecurity, исследование показало, что небольшие языковые модели (SLMs) могут применяться для выявления веб-сайтов, связанных с фишингом. Это открывает новую область применения ИИ в сфере кибербезопасности, где оперативность и точность играют ключевую роль. Эксперты отмечают, что, несмотря на относительную новизну подхода, первые результаты уже демонстрируют потенциал.
Подход к исследованию
Для проверки эффективности моделей использовался открытый набор данных, включающий около десяти тысяч веб-сайтов — как безопасных, так и связанных с фишингом. Из этого набора была сформирована выборка из тысячи сайтов, в которой количество фишинговых и безопасных страниц было сбалансировано. Каждая страница подвергалась обработке, оставляя лишь небольшую часть исходного HTML-кода. Такой подход снижал затраты на вычисления и отражал практику, при которой длинные скрипты и другие элементы не оказывают существенного влияния на оценку риска.
В обработку включались теги, связанные с навигацией, изображениями и метаданными — элементы, которые часто содержат признаки мошеннических схем. Исследователи создали две версии обработанного HTML: одна содержала до пяти процентов исходного кода, а вторая — до пятидесяти. Для основного тестирования применялась более компактная версия.
Все модели получали одинаковый шаблон запроса, включающий анализ структуры страницы, текстовых и ссылочных паттернов. Результаты включали оценку от 0 до 10, метку (фишинг/безопасно) и краткое объяснение. Такая форма позволяла оценить точность и внутреннюю согласованность выводов.
Результаты тестирования
Результаты оказались неоднозначными. Некоторые модели показали высокую эффективность, тогда как другие столкнулись с проблемами в базовых задачах — например, с соблюдением формата ответа. Точность моделей варьировалась от 56% до почти 90%, с большинством результатов выше 80%. Это демонстрирует, что небольшие модели могут успешно справляться с задачей классификации, однако качество их работы зависит от конкретной реализации.
Практические показатели также различались. Одна модель обнаруживала почти все фишинговые страницы, на которых она делала пометку, и достигала 98% точности, но при этом часто не возвращала полный результат. Это делало её непригодной для использования. Другие модели, хотя и обнаруживали меньше угроз, возвращали ответы в стабильном формате, что делало их более надежными.
Исследование также показало, что модели среднего размера (от 10 до 20 миллиардов параметров) демонстрируют результаты, близкие к результатам более крупных моделей. Это указывает на прогресс в развитии небольших моделей. Однако время выполнения задач различалось: крупные модели обрабатывали страницы за несколько секунд, что может замедлять работу систем сканирования. Меньшие модели работали быстрее, но их результаты часто оказывались менее точными.
Преимущества использования SLMs
Одним из ключевых преимуществ использования небольших языковых моделей является возможность запуска их на внутренних системах. Это позволяет организациям сохранять чувствительные данные внутри, что особенно важно для компаний, работающих в условиях строгого регулирования или обрабатывающих конфиденциальную информацию. В контексте фишинга локальное размещение моделей упрощает управление данными и снижает зависимость от сторонних платформ.
Кроме того, модели можно адаптировать под конкретные задачи. Организации, обладающие соответствующими навыками, могут настраивать модели, используя собственные наборы данных для корректировки весов или создания систем, основанных на поиске. В экосистеме open source доступно множество моделей, которые можно адаптировать под нужные цели. На платформах вроде Hugging Face часто публикуются тонированные модели для смежных задач, хотя, по данным авторов, пока нет моделей, специально адаптированных для фишинга.
Локальное использование снижает зависимость от внешних поставщиков, избегает рисков, связанных с ценовыми изменениями или внутренними решениями сторонних компаний, и защищает от сбоев в облачных системах и сетевых проблемах. Дополнительным плюсом является снижение задержек, что особенно важно при необходимости быстрого реагирования на угрозы.
Ограничения при использовании SLMs
Несмотря на преимущества, небольшие модели уступают по эффективности крупным проприетарным системам. Разрыв проявляется во всех ключевых метриках. Модели, протестированные в ходе исследования, показали хорошие результаты для своего размера, некоторые справились с узкими задачами, но ни одна из них не достигла уровня, характерного для крупных систем. Такой разрыв может сохраняться при схожих условиях тестирования.
Низкая производительность повышает риск ложных срабатываний или упущенных угроз, что может нарушить процесс обнаружения фишинга и предоставить злоумышленникам больше возможностей. Это требует внимательного подхода при внедрении SLMs в реальные системы безопасности.
Интересно: Каковы последствия для бизнеса, если внедрение небольших языковых моделей в фишинговую систему приведёт к увеличению ложных срабатываний или, наоборот, снизит количество упущенных угроз?

Небольшие языковые модели в борьбе с фишингом: перспективы и риски
Скорость против точности: баланс в кибербезопасности
Исследование, о котором идёт речь, показывает, что небольшие языковые модели (SLMs) могут быть эффективно использованы для выявления фишинговых веб-сайтов. Это открывает новую область применения ИИ в кибербезопасности, где оперативность и точность играют ключевую роль. Однако, как показывает практика, применение таких моделей требует тщательного подхода, поскольку их эффективность зависит от множества факторов, включая качество данных, архитектуру модели и её настройки.
Важный нюанс: В условиях, когда злоумышленники всё чаще используют генеративный ИИ для создания убедительных дипфейков и фишинговых страниц [!], SLMs могут стать важным элементом комплексной стратегии защиты. Они позволяют снизить зависимость от внешних поставщиков, уменьшить задержки и повысить уровень контроля над данными. Это особенно ценно для организаций, работающих в условиях строгого регулирования, таких как финансовый сектор или государственные структуры.
Однако, несмотря на преимущества, SLMs не заменяют крупные модели в задачах, требующих глубокого анализа контекста и поведения. Например, в выявлении сложных атак, где злоумышленники используют техники, такие как WebSocket для мгновенного получения введённых данных [!], небольшие модели могут уступать по эффективности. Это требует внимательного подхода при внедрении таких решений в реальные системы безопасности.
Практические ограничения и стратегические решения
Одним из ключевых ограничений SLMs является их относительно низкая точность по сравнению с крупными моделями. В исследовании показано, что точность моделей варьировалась от 56% до почти 90%, с большинством результатов выше 80%. Это демонстрирует, что небольшие модели могут успешно справляться с задачей классификации, но их результаты зависят от конкретной реализации.
Важный нюанс: Компании, которые рассматривают внедрение SLMs, должны учитывать, что модели среднего размера (от 10 до 20 миллиардов параметров) показывают результаты, близкие к крупным моделям, но при этом работают быстрее. Это может быть критически важно в условиях, когда время — решающий фактор. Например, при анализе фишинговых атак, где злоумышленники действуют в течение нескольких секунд, скорость обработки может определять успех защиты [!].
Однако, как показывает опыт, крупные модели могут замедлять работу систем сканирования. Это требует баланса между скоростью и точностью. Для некоторых организаций, где безопасность — вопрос выживания, этот компромисс может быть слишком высокой ценой.
Стратегические перспективы: от локального ИИ к гибридным решениям
В условиях, когда дефицит полупроводников и рост спроса на современные чипы создают бутылочные горлышки в производстве [!], локальное использование SLMs становится всё более привлекательным. Оно позволяет организациям сохранять данные внутри, что особенно важно в условиях, когда конфиденциальность — ключевой фактор. Это также снижает зависимость от сторонних платформ и позволяет избежать рисков, связанных с ценовыми изменениями или внутренними решениями поставщиков.
Важный нюанс: Однако, как отмечает Hugging Face, развитие ИИ идёт не только в сторону увеличения размера моделей, но и в сторону их специализации. Это открывает возможность для создания более компактных и эффективных решений, адаптированных под конкретные задачи [!]. Для бизнеса это означает, что в будущем может сформироваться новая экосистема, где SLMs будут играть роль вспомогательного инструмента в комплексе с более крупными моделями.
Риски и реалии: как учится зло
Одним из важных аспектов, который нельзя игнорировать, является то, что злоумышленники также активно используют ИИ для масштабирования своих атак. Например, генеративный ИИ используется для создания дипфейков и обхода биометрической аутентификации, что делает традиционные методы защиты менее эффективными [!]. Это ставит под угрозу не только пользовательские данные, но и всю инфраструктуру, включая системы, основанные на анализе поведения и геолокации.
Важный нюанс: В условиях, когда даже крупные ИИ-платформы, такие как Google и Anthropic, сталкиваются с угрозами со стороны вредоносных атак [!] [!], защита от фишинга становится более сложной. Это требует не только технических решений, но и повышения уровня осведомлённости сотрудников. Снижение нагрузки на киберспециалистов через автоматизацию и ИИ становится важным элементом стратегии [!].
Выводы: как строить стратегию защиты
- Локальное использование SLMs позволяет сохранять данные внутри и снизить зависимость от сторонних поставщиков. Это особенно важно для организаций, работающих в условиях строгого регулирования.
- Модели среднего размера (от 10 до 20 миллиардов параметров) могут быть эффективным компромиссом между скоростью и точностью, особенно в условиях, где время — решающий фактор.
- Специализированные модели ИИ, такие как те, что предлагает Hugging Face, могут стать частью будущей экосистемы, где SLMs будут играть роль вспомогательного инструмента.
- Рост угроз со стороны злоумышленников, использующих ИИ для создания дипфейков и обхода защиты, требует не только технических решений, но и повышения уровня осведомлённости сотрудников.
- Комплексный подход к кибербезопасности, включающий автоматизацию, обучение персонала и интеграцию ИИ, становится ключевым фактором защиты от фишинга и других кибератак.
В условиях, когда киберпреступность становится всё более организованной и технически сложной, выбор между скоростью и точностью, между контролем и сложностью становится не только технической задачей, а стратегическим решением.
Источник: helpnetsecurity.com