Гонка за превосходство в области искусственного интеллекта вступила в новую спорную главу. Пока мир наблюдает за выпуском все более мощных больших языковых моделей (LLM), ведется теневая война за те самые данные, которые используются для их обучения. В серии поразительных отчетов ведущие американские ИИ-компании, включая Anthropic, OpenAI и Google, обвинили несколько известных китайских стартапов в обходе многолетних исследований и миллиардных инвестиций с помощью метода, известного как «атака дистилляцией» (distillation attack).
В центре последнего скандала оказалась компания Anthropic, создатель серии моделей Claude. Недавно компания сообщила, что обнаружила масштабные скоординированные усилия по сбору ее интеллектуальной собственности. По данным Anthropic, фирмы, включая DeepSeek, Moonshot AI и MiniMax, предположительно использовали более 24 000 поддельных аккаунтов для генерации более 16 миллионов диалогов с Claude. Цель? Использовать сложные рассуждения и логику Claude для обучения собственных конкурирующих моделей за малую часть стоимости.
Чтобы понять, почему эти обвинения столь значимы, необходимо разобраться в концепции дистилляции моделей. В контексте легитимных исследований дистилляция — это распространенный метод, при котором меньшая, более эффективная модель-«ученик» обучается имитировать поведение более крупной и сложной модели-«учителя». Это позволяет разработчикам создавать быстрый и легкий ИИ, который может работать на смартфонах или локальном оборудовании, сохраняя при этом большую часть интеллекта массивной модели уровня дата-центра.
Однако атака дистилляцией происходит, когда конкурент использует API (интерфейс прикладного программирования) модели соперника для систематического извлечения ее знаний без разрешения. Представьте себе студента, который вместо того, чтобы изучать оригинальные учебники и выполнять лабораторные работы, просто записывает каждое слово профессора мирового уровня и использует эти записи для создания конкурирующего курса. Студент экономит годы усилий и миллионы на обучении, в то время как оригинальная работа профессора обесценивается.
Огромный масштаб деятельности, о которой сообщила Anthropic, указывает на высокоиндустриализированную операцию. Создав 24 000 отдельных аккаунтов, злоумышленники, вероятно, пытались обойти «лимиты скорости» (rate limits) — защитные тормоза, которые ИИ-компании устанавливают, чтобы предотвратить захват ресурсов или парсинг данных одним пользователем.
Распределив 16 миллионов запросов по этим аккаунтам, китайские фирмы, как утверждается, собрали массивный набор высококачественных «синтетических данных». Эти данные особенно ценны, поскольку они содержат логику «цепочки рассуждений» (chain-of-thought), которой славятся такие модели, как Claude 3.5 и Claude 4. Для таких компаний, как DeepSeek или Moonshot AI, эти собранные данные служат коротким путем, позволяя им сократить разрыв между их текущими возможностями и передовыми технологиями без астрономических затрат на оригинальные открытия.
Anthropic не одинока в своих претензиях. Ранее в этом месяце OpenAI и Google выпустили аналогичные предупреждения, отметив, что к их проприетарным моделям поступали запросы по схемам, характерным для автоматизированного сбора данных структурами, связанными с китайским технологическим сектором.
Эта тенденция подчеркивает растущее отчаяние в глобальной гонке ИИ. Поскольку правительство США ужесточает экспортный контроль на высокопроизводительные чипы NVIDIA — оборудование, необходимое для обучения ИИ, — китайские фирмы сталкиваются с «дефицитом вычислительных мощностей». Если они не могут получить доступ к оборудованию для обучения моделей с нуля на основе необработанных данных, их наиболее жизнеспособный путь вперед — «дистиллировать» интеллект, уже доведенный до совершенства американскими компаниями, у которых есть запасные чипы.
Последствия этих атак выходят далеко за рамки корпоративных балансов. Мы являемся свидетелями формирования «холодной войны в сфере ИИ», где интеллектуальная собственность является основным полем битвы.
| Характеристика | Оригинальное обучение | Атака дистилляцией |
|---|---|---|
| Стоимость | Миллиарды (Вычисления + Таланты) | Миллионы (Плата за API + Парсинг) |
| Сроки | Годы исследований и разработок | Месяцы сбора данных |
| Потребность в железе | Десятки тысяч GPU H100/B200 | Стандартная облачная инфраструктура |
| Источник данных | Масштабный обход веб-страниц + обратная связь от людей | Результаты работы модели конкурента |
Для политиков США это вопрос национальной безопасности. Если китайские фирмы смогут успешно «срезать путь» в процессе разработки, лидерство, которое США в настоящее время удерживают в области безопасности и возможностей ИИ, может испариться. Это привело к призывам к ужесточению требований «Знай своего клиента» (KYC) для поставщиков API ИИ, что фактически приравнивает доступ к мощной LLM по уровню контроля к открытию банковского счета.
Лаборатории ИИ больше не сосредотачиваются только на том, чтобы сделать свои модели умнее; они работают над тем, чтобы их было сложнее украсть. В настоящее время развертывается несколько защитных стратегий:
По мере того как ландшафт ИИ становится все более склонным к судебным разбирательствам и защите, разработчикам и бизнесу следует подготовиться к более ограничительной среде.
Обвинения против DeepSeek, Moonshot AI и MiniMax представляют собой фундаментальный сдвиг в индустрии ИИ. Эра «открытых исследований» стремительно закрывается, так как компании осознают, что результаты их работы — это их самые ценные активы. В то время как США продолжают лидировать в чистых инновациях, способность глобальных конкурентов зеркально отражать эти инновации через дистилляцию остается мощной угрозой. Холодная война в сфере ИИ больше не является теоретическим будущим — это реальность настоящего.



Наше решение для электронной почты и облачного хранения данных со сквозным шифрованием обеспечивает наиболее мощные средства безопасного обмена данными, гарантируя их сохранность и конфиденциальность.
/ Создать бесплатный аккаунт