Ноябрь 2025   |   Обзор события   | 7

Небольшие ИИ-модели научились выявлять фишинг — что это значит для кибербезопасности

Исследование показало, что небольшие языковые модели способны выявлять фишинговые веб-сайты, обрабатывая сокращённую версию HTML-кода. Точность моделей варьировалась от 56% до 90%, что демонстрирует их потенциал, но также подчёркивает зависимость эффективности от конкретной реализации.

ИСХОДНЫЙ НАРРАТИВ

По данным Helpnetsecurity, исследование показало, что небольшие языковые модели (SLMs) могут применяться для выявления веб-сайтов, связанных с фишингом. Это открывает новую область применения ИИ в сфере кибербезопасности, где оперативность и точность играют ключевую роль. Эксперты отмечают, что, несмотря на относительную новизну подхода, первые результаты уже демонстрируют потенциал.

Подход к исследованию

Для проверки эффективности моделей использовался открытый набор данных, включающий около десяти тысяч веб-сайтов — как безопасных, так и связанных с фишингом. Из этого набора была сформирована выборка из тысячи сайтов, в которой количество фишинговых и безопасных страниц было сбалансировано. Каждая страница подвергалась обработке, оставляя лишь небольшую часть исходного HTML-кода. Такой подход снижал затраты на вычисления и отражал практику, при которой длинные скрипты и другие элементы не оказывают существенного влияния на оценку риска.

В обработку включались теги, связанные с навигацией, изображениями и метаданными — элементы, которые часто содержат признаки мошеннических схем. Исследователи создали две версии обработанного HTML: одна содержала до пяти процентов исходного кода, а вторая — до пятидесяти. Для основного тестирования применялась более компактная версия.

Все модели получали одинаковый шаблон запроса, включающий анализ структуры страницы, текстовых и ссылочных паттернов. Результаты включали оценку от 0 до 10, метку (фишинг/безопасно) и краткое объяснение. Такая форма позволяла оценить точность и внутреннюю согласованность выводов.

Результаты тестирования

Результаты оказались неоднозначными. Некоторые модели показали высокую эффективность, тогда как другие столкнулись с проблемами в базовых задачах — например, с соблюдением формата ответа. Точность моделей варьировалась от 56% до почти 90%, с большинством результатов выше 80%. Это демонстрирует, что небольшие модели могут успешно справляться с задачей классификации, однако качество их работы зависит от конкретной реализации.

Практические показатели также различались. Одна модель обнаруживала почти все фишинговые страницы, на которых она делала пометку, и достигала 98% точности, но при этом часто не возвращала полный результат. Это делало её непригодной для использования. Другие модели, хотя и обнаруживали меньше угроз, возвращали ответы в стабильном формате, что делало их более надежными.

Исследование также показало, что модели среднего размера (от 10 до 20 миллиардов параметров) демонстрируют результаты, близкие к результатам более крупных моделей. Это указывает на прогресс в развитии небольших моделей. Однако время выполнения задач различалось: крупные модели обрабатывали страницы за несколько секунд, что может замедлять работу систем сканирования. Меньшие модели работали быстрее, но их результаты часто оказывались менее точными.

Преимущества использования SLMs

Одним из ключевых преимуществ использования небольших языковых моделей является возможность запуска их на внутренних системах. Это позволяет организациям сохранять чувствительные данные внутри, что особенно важно для компаний, работающих в условиях строгого регулирования или обрабатывающих конфиденциальную информацию. В контексте фишинга локальное размещение моделей упрощает управление данными и снижает зависимость от сторонних платформ.

Кроме того, модели можно адаптировать под конкретные задачи. Организации, обладающие соответствующими навыками, могут настраивать модели, используя собственные наборы данных для корректировки весов или создания систем, основанных на поиске. В экосистеме open source доступно множество моделей, которые можно адаптировать под нужные цели. На платформах вроде Hugging Face часто публикуются тонированные модели для смежных задач, хотя, по данным авторов, пока нет моделей, специально адаптированных для фишинга.

Локальное использование снижает зависимость от внешних поставщиков, избегает рисков, связанных с ценовыми изменениями или внутренними решениями сторонних компаний, и защищает от сбоев в облачных системах и сетевых проблемах. Дополнительным плюсом является снижение задержек, что особенно важно при необходимости быстрого реагирования на угрозы.

Ограничения при использовании SLMs

Несмотря на преимущества, небольшие модели уступают по эффективности крупным проприетарным системам. Разрыв проявляется во всех ключевых метриках. Модели, протестированные в ходе исследования, показали хорошие результаты для своего размера, некоторые справились с узкими задачами, но ни одна из них не достигла уровня, характерного для крупных систем. Такой разрыв может сохраняться при схожих условиях тестирования.

Низкая производительность повышает риск ложных срабатываний или упущенных угроз, что может нарушить процесс обнаружения фишинга и предоставить злоумышленникам больше возможностей. Это требует внимательного подхода при внедрении SLMs в реальные системы безопасности.

Интересно: Каковы последствия для бизнеса, если внедрение небольших языковых моделей в фишинговую систему приведёт к увеличению ложных срабатываний или, наоборот, снизит количество упущенных угроз?

Концептуальное изображение
Создано специально для ASECTOR
Концептуальное изображение

АНАЛИТИЧЕСКИЙ РАЗБОР

Небольшие языковые модели в борьбе с фишингом: перспективы и риски

Скорость против точности: баланс в кибербезопасности

Исследование, о котором идёт речь, показывает, что небольшие языковые модели (SLMs) могут быть эффективно использованы для выявления фишинговых веб-сайтов. Это открывает новую область применения ИИ в кибербезопасности, где оперативность и точность играют ключевую роль. Однако, как показывает практика, применение таких моделей требует тщательного подхода, поскольку их эффективность зависит от множества факторов, включая качество данных, архитектуру модели и её настройки.

Важный нюанс: В условиях, когда злоумышленники всё чаще используют генеративный ИИ для создания убедительных дипфейков и фишинговых страниц [!], SLMs могут стать важным элементом комплексной стратегии защиты. Они позволяют снизить зависимость от внешних поставщиков, уменьшить задержки и повысить уровень контроля над данными. Это особенно ценно для организаций, работающих в условиях строгого регулирования, таких как финансовый сектор или государственные структуры.

Однако, несмотря на преимущества, SLMs не заменяют крупные модели в задачах, требующих глубокого анализа контекста и поведения. Например, в выявлении сложных атак, где злоумышленники используют техники, такие как WebSocket для мгновенного получения введённых данных [!], небольшие модели могут уступать по эффективности. Это требует внимательного подхода при внедрении таких решений в реальные системы безопасности.

Практические ограничения и стратегические решения

Одним из ключевых ограничений SLMs является их относительно низкая точность по сравнению с крупными моделями. В исследовании показано, что точность моделей варьировалась от 56% до почти 90%, с большинством результатов выше 80%. Это демонстрирует, что небольшие модели могут успешно справляться с задачей классификации, но их результаты зависят от конкретной реализации.

Важный нюанс: Компании, которые рассматривают внедрение SLMs, должны учитывать, что модели среднего размера (от 10 до 20 миллиардов параметров) показывают результаты, близкие к крупным моделям, но при этом работают быстрее. Это может быть критически важно в условиях, когда время — решающий фактор. Например, при анализе фишинговых атак, где злоумышленники действуют в течение нескольких секунд, скорость обработки может определять успех защиты [!].

Однако, как показывает опыт, крупные модели могут замедлять работу систем сканирования. Это требует баланса между скоростью и точностью. Для некоторых организаций, где безопасность — вопрос выживания, этот компромисс может быть слишком высокой ценой.

Стратегические перспективы: от локального ИИ к гибридным решениям

В условиях, когда дефицит полупроводников и рост спроса на современные чипы создают бутылочные горлышки в производстве [!], локальное использование SLMs становится всё более привлекательным. Оно позволяет организациям сохранять данные внутри, что особенно важно в условиях, когда конфиденциальность — ключевой фактор. Это также снижает зависимость от сторонних платформ и позволяет избежать рисков, связанных с ценовыми изменениями или внутренними решениями поставщиков.

Важный нюанс: Однако, как отмечает Hugging Face, развитие ИИ идёт не только в сторону увеличения размера моделей, но и в сторону их специализации. Это открывает возможность для создания более компактных и эффективных решений, адаптированных под конкретные задачи [!]. Для бизнеса это означает, что в будущем может сформироваться новая экосистема, где SLMs будут играть роль вспомогательного инструмента в комплексе с более крупными моделями.

Риски и реалии: как учится зло

Одним из важных аспектов, который нельзя игнорировать, является то, что злоумышленники также активно используют ИИ для масштабирования своих атак. Например, генеративный ИИ используется для создания дипфейков и обхода биометрической аутентификации, что делает традиционные методы защиты менее эффективными [!]. Это ставит под угрозу не только пользовательские данные, но и всю инфраструктуру, включая системы, основанные на анализе поведения и геолокации.

Важный нюанс: В условиях, когда даже крупные ИИ-платформы, такие как Google и Anthropic, сталкиваются с угрозами со стороны вредоносных атак [!] [!], защита от фишинга становится более сложной. Это требует не только технических решений, но и повышения уровня осведомлённости сотрудников. Снижение нагрузки на киберспециалистов через автоматизацию и ИИ становится важным элементом стратегии [!].

Выводы: как строить стратегию защиты

  1. Локальное использование SLMs позволяет сохранять данные внутри и снизить зависимость от сторонних поставщиков. Это особенно важно для организаций, работающих в условиях строгого регулирования.
  2. Модели среднего размера (от 10 до 20 миллиардов параметров) могут быть эффективным компромиссом между скоростью и точностью, особенно в условиях, где время — решающий фактор.
  3. Специализированные модели ИИ, такие как те, что предлагает Hugging Face, могут стать частью будущей экосистемы, где SLMs будут играть роль вспомогательного инструмента.
  4. Рост угроз со стороны злоумышленников, использующих ИИ для создания дипфейков и обхода защиты, требует не только технических решений, но и повышения уровня осведомлённости сотрудников.
  5. Комплексный подход к кибербезопасности, включающий автоматизацию, обучение персонала и интеграцию ИИ, становится ключевым фактором защиты от фишинга и других кибератак.

В условиях, когда киберпреступность становится всё более организованной и технически сложной, выбор между скоростью и точностью, между контролем и сложностью становится не только технической задачей, а стратегическим решением.

Коротко о главном

Сколько сайтов участвовало в тестировании?

Для проверки эффективности моделей использовали набор данных из около десяти тысяч сайтов, из которых сформировали сбалансированную выборку из тысячи.

Какие элементы HTML анализировали?

В обработку включали теги, связанные с навигацией, изображениями и метаданными, так как они часто содержат признаки мошенничества.

Какова была точность моделей?

Точность варьировалась от 56% до почти 90%, с большинством результатов выше 80%, что показывает потенциал SLMs, но и указывает на зависимость от реализации.

Почему одна модель не подошла для использования?

Модель обнаруживала почти все фишинговые страницы с 98% точностью, но часто не возвращала полный результат, что делало её непригодной для реального применения.

Какие преимущества даёт локальное использование SLMs?

Модели могут запускаться на внутренних системах, что позволяет сохранять данные внутри компании, снижает задержки и зависимость от сторонних платформ.

Почему SLMs пока не заменяют крупные модели?

Небольшие модели уступают по эффективности проприетарным системам во всех ключевых метриках, что может привести к ложным срабатываниям или упущенным угрозам.

Инфографика событий

Открыть инфографику на весь экран


Участники и связи

Отрасли: ИТ и программное обеспечение; Искусственный интеллект (AI); Кибербезопасность; Бизнес; Цифровизация и технологии

Оценка значимости: 7 из 10

Исследование о применении небольших языковых моделей для обнаружения фишинга касается актуальной области кибербезопасности, что важно для российских организаций, сталкивающихся с ростом цифровых угроз. Масштаб аудитории — национальный, так как технологии кибербезопасности востребованы в бизнесе и государственных структурах. Воздействие — среднесрочное, так как внедрение таких моделей требует времени и тестирования. Сферы влияния включают ИТ, безопасность, экономику и регулирование, что расширяет значимость события. Глубина последствий — заметная, так как улучшение детекции фишинга может снизить финансовые и репутационные потери компаний.

Материалы по теме

Генеративный ИИ угрожает кибербезопасности: как защитить данные от дипфейков и атак

Упоминание использования генеративного ИИ злоумышленниками для создания дипфейков и обхода биометрической аутентификации подчеркивает рост сложности угроз в кибербезопасности. Эти данные усиливают аргумент о том, что традиционные методы защиты становятся менее эффективными, что требует интеграции ИИ в стратегии обороны.

Подробнее →
Кризис кибервыгорания: почему усталость сотрудников угрожает безопасности бизнеса

Ссылка на снижение нагрузки на киберспециалистов через ИИ используется для подкрепления идеи о том, что внедрение ИИ не только повышает техническую эффективность, но и решает критически важную проблему — выгорание сотрудников в условиях постоянного роста атак.

Подробнее →
TSMC в центре «чипового суперцикла»: спрос на полупроводники превышает мощности в три раза

Данные о дефиците полупроводников и бутылочных горлышках в производстве чипов помогают обосновать выбор локального использования SLMs как стратегического решения. Это усиливает аргумент о снижении зависимости от внешних поставщиков и необходимости компромисса между скоростью и масштабом вычислений.

Подробнее →
Растущие фишинговые атаки: как злоумышленники обманывают с помощью поддельных уведомлений о письмах

Упоминание техники использования WebSocket злоумышленниками для мгновенного получения введённых данных демонстрирует, что крупные модели могут быть более эффективны в анализе сложных атак. Это служит примером, почему SLMs не могут быть универсальным решением в задачах кибербезопасности.

Подробнее →
Hugging Face: LLM могут столкнуться с резким спадом интереса

Ссылка на позицию Hugging Face о развитии специализированных моделей ИИ используется для подтверждения тезиса о том, что будущее ИИ в кибербезопасности будет связано с гибридными решениями, где SLMs будут играть роль вспомогательного инструмента.

Подробнее →
Google обнаружил вирус на ИИ: он учится и обходит защиту

Упоминание о вредоносном ПО PROMPTFLUX, использующем ИИ для адаптации и обхода защиты, служит контекстом для аргумента о том, что даже крупные ИИ-платформы сталкиваются с новыми угрозами. Это усиливает важность комплексного подхода к защите.

Подробнее →
ИИ стал оружием кибератак: как платформы вредоносных атак влияют на безопасность

Ссылка на атаки, совершенные с помощью ИИ-платформы Claude, подчеркивает, что ИИ может быть использован как оружие, а не только как средство защиты. Это усиливает необходимость повышения осведомлённости и внедрения адаптивных систем обнаружения.

Подробнее →