Вчера вечером я провел три часа, анализируя последовательность состязательных промптов на локальной рабочей станции. Эта установка была отключена от интернета и работала на базе модели текущего поколения с открытыми весами. Эксперимент проходил тихо. Не было никаких исходящих API-вызовов к центральному провайдеру, такому как OpenAI или Google, которые могли бы зафиксировать подозрительную активность. Не было ограничений по скорости, замедляющих выполнение. В течение нескольких минут один входящий текстовый файл заставил модель сгенерировать серию вторичных инструкций. Эти инструкции были разработаны для поиска других файлов в системе и вставки в них копии исходного промпта. Это реальность преемника Morris II. Это червь, который живет целиком внутри логики искусственного интеллекта.
Исследователи недавно продемонстрировали, что эти самовоспроизводящиеся ИИ-черви больше не ограничиваются теоретическими научными работами или облачными средами. Теперь они работают на локальных моделях с открытыми весами. Организации часто переносят свои рабочие нагрузки ИИ на локальное оборудование для обеспечения конфиденциальности данных. Они верят, что хранение данных внутри компании является достаточной защитой. Это создает архитектурный парадокс. Та же локальная изоляция, которая защищает данные от публичного облака, также скрывает вредоносную активность ИИ от централизованных мониторов безопасности. Если модель уязвима для состязательного самовоспроизводящегося промпта, атака происходит внутри доверенного периметра. Команда безопасности видит легитимный процесс, потребляющий ресурсы GPU, в то время как червь распространяется по внутренней базе данных.
Традиционные черви распространяются, эксплуатируя ошибки памяти или недостатки сетевых протоколов. Они используют переполнение буфера для выполнения кода, который система никогда не планировала запускать. ИИ-червь работает иначе. Он использует семантическое переполнение. В этом сценарии злоумышленник предоставляет промпт, который модель интерпретирует как набор инструкций более высокого порядка. Модель не выходит из строя. Она работает именно так, как задумано, обрабатывая входные данные и генерируя ответ. Проблема в том, что входные данные содержат скрытую команду, которая заставляет модель включить ту же самую команду в свой следующий вывод. Это создает петлю обратной связи.
Когда ИИ-агент имеет полномочия на чтение и запись файлов, петля превращается в цикл репликации. Модель читает зараженный файл, следует скрытой инструкции по ее воспроизведению и записывает ее в новое место. За кулисами червь использует основную функциональность большой языковой модели (LLM) для распространения. Он относится к модели как к компилятору и механизму исполнения. Поскольку инструкция написана на естественном языке, она обходит традиционные антивирусные инструменты, основанные на сигнатурах. Сканер ищет вредоносные бинарные файлы или скрипты. Он не ищет абзац текста, в котором модель просят «быть полезной» и включить определенное предложение в следующий черновик электронного письма.
Облачные провайдеры ИИ внедряют уровни безопасности, которые пытаются отфильтровывать вредоносные промпты. Эти фильтры не идеальны, но они обеспечивают базовую защиту, которая обновляется в режиме реального времени. Когда организация загружает модель с открытыми весами, такую как Llama или Mistral, для запуска на собственных серверах, она сама становится ответственной за эти уровни безопасности. Во многих развертываниях эти фильтры удаляются для повышения производительности или во избежание задержек, связанных с работой вторичной модели модерации. Это оставляет систему открытой для прямой инъекции промптов.
С точки зрения рисков, переход к локальным моделям увеличивает поверхность атаки внутренней сети. Злоумышленнику не нужно взламывать брандмауэр, чтобы добраться до ИИ. Им нужно лишь отправить фрагмент данных, который ИИ запрограммирован обработать. Это может быть электронное письмо, тикет в службу поддержки или документ, загруженный в частную базу знаний. Как только ИИ-агент прочитывает зараженные данные, червь начинает репликацию внутри локальной среды. Он использует собственные веса модели для генерации следующей итерации атаки. Децентрализованный характер этих моделей означает отсутствие «тревожной кнопки». Исследователь безопасности не может позвонить одному провайдеру, чтобы отключить инфраструктуру червя. Инфраструктура — это собственный серверный шкаф компании.
Специалисты по информационной безопасности часто рассматривают данные как ценный ресурс, требующий защиты. В контексте самовоспроизводящихся ИИ-червей данные становятся токсичным активом. Каждый фрагмент информации, поглощаемый ИИ-агентом, является потенциальным носителем вирусного промпта. Если агент имеет разрешение на обобщение электронных писем или организацию файлов, он действует как цифровой троянский конь. Он вносит угрозу в самые чувствительные области сети под видом продуктивности.
Недавно я консультировал фирму, которая использовала ИИ-агента для мониторинга внутренних каналов Slack на предмет обновлений проектов. Они предоставили агенту доступ на чтение всех каналов и доступ на запись в центральную базу данных управления проектами. Такая установка — идеальная площадка для ИИ-червя. Одно сообщение в публичном канале могло содержать скрытый промпт. Агент читает сообщение, генерирует сводку и, сам того не зная, включает промпт репликации в базу данных. Каждый другой агент или пользователь, взаимодействующий с этой базой данных, становится потенциальным вектором для дальнейшего распространения. Целостность всей экосистемы данных оказывается под угрозой, потому что система доверяет выводу модели без проверки.
На протяжении десятилетий сетевой периметр был основной защитой. Он действовал как ров вокруг замка, который не пускал злоумышленников, пропуская доверенный трафик. ИИ-черви делают этот ров бесполезным. Они не входят в сеть через сломанные ворота. Их приглашают внутрь как данные. Когда сотрудник получает резюме от соискателя, файл проходит через брандмауэр, потому что это легитимный документ. Если инструмент ИИ используется для обобщения этого резюме, червь выполняется в памяти GPU.
Говоря проактивно, индустрия должна двигаться к архитектуре с нулевым доверием (zero-trust) для взаимодействий с ИИ. Нулевое доверие — это как вышибала в VIP-клубе у каждой внутренней двери. Вы никогда не доверяете промпту и всегда проверяете результат. Это означает, что вывод LLM никогда не должен рассматриваться как доверенные данные. Если модель генерирует команду на запись в файл или отправку письма, вторичная система должна проверить это действие на соответствие набору строгих политик. Локальные модели требуют большего контроля, а не меньшего. Поскольку они невидимы для внешних поставщиков услуг безопасности, внутренний мониторинг должен быть более детализированным.
Защита локального стека ИИ требует перехода от мониторинга сетевого трафика к мониторингу семантических намерений. Организации не могут полагаться на безопасность моделей с открытыми весами по умолчанию. Эти модели — инструменты, и, как любой инструмент, они могут быть использованы против владельца, если оставить их незащищенными. Надежная защита включает несколько уровней изоляции и проверки.
Рассмотрите следующие рекомендации для немедленного внедрения:
В качестве контрмеры некоторые команды сейчас используют промпты-приманки (honeytokens). Это специфические скрытые строки, размещенные в документах, которые никогда не должны обрабатываться ИИ. Если инструмент безопасности обнаруживает генерацию этих строк в выводе LLM, это вызывает немедленное оповещение. Это реактивный подход, но он обеспечивает криминалистический след во время инцидента. Цель состоит в том, чтобы обнаружить репликацию до того, как червь насытит внутреннее хранилище данных.
Обнаружение самовоспроизводящихся ИИ-червей в локальных моделях — это предупреждение. Оно показывает, что удобство ИИ-агентов сопряжено с системным риском. Мы строим системы, которые предназначены для выполнения инструкций, и удивляемся, когда они выполняют инструкции, предоставленные злоумышленником. Это не провал ИИ. Это провал архитектуры, окружающей ИИ.
Руководители служб безопасности должны перестать относиться к LLM как к «черным ящикам», которые просто работают. Это сложные программные системы, требующие такого же уровня тщательного тестирования и контроля границ, как и любое другое корпоративное приложение. Помимо установки патчей, самой эффективной защитой является изменение мышления. Не доверяйте промпту. Не доверяйте модели. Не доверяйте выводу. Проведите полную оценку рисков ваших локальных развертываний ИИ сегодня и аудит разрешений каждого агента, подключенного к вашим внутренним данным.
Источники:
Отказ от ответственности: Данная статья носит исключительно информационный и образовательный характер и не заменяет профессиональный аудит кибербезопасности или услуги по реагированию на инциденты.



Наше решение для электронной почты и облачного хранения данных со сквозным шифрованием обеспечивает наиболее мощные средства безопасного обмена данными, гарантируя их сохранность и конфиденциальность.
/ Создать бесплатный аккаунт