
В мае китайская компания DeepSeek выпустила обновлённую версию своей модели искусственного интеллекта R1, демонстрирующую высокие результаты в математических тестах и задачах на программирование. Компания не раскрыла источники данных, использованных для обучения модели, однако ряд исследователей предполагают, что часть данных была получена из семейства моделей Google Gemini.
Разработчик Сэм Пэч из Мельбурна, специализирующийся на оценке «эмоционального интеллекта» ИИ, опубликовал в социальной сети X данные, которые, по его утверждению, доказывают обучение модели DeepSeek R1-0528 на выводах Gemini. Пэч отметил сходство в используемой лексике и выражениях между моделью DeepSeek и Google Gemini 2.5 Pro. Другой разработчик, создатель анонимного проекта SpeechMap для оценки «свободы слова» в ИИ, также указал на сходство «мыслительных процессов» — промежуточных выводов — модели DeepSeek с трассировками Gemini.

Это не первое обвинение в адрес DeepSeek в использовании данных конкурирующих моделей. В декабре разработчики заметили, что модель DeepSeek V3 часто идентифицировала себя как ChatGPT, что указывало на возможное обучение на логах чатов OpenAI. Ранее в 2025 году OpenAI сообщила Financial Times о наличии доказательств использования DeepSeek метода дистилляции — техники обучения ИИ на основе данных более мощных моделей. По данным Bloomberg, Microsoft, тесно сотрудничающая с OpenAI, обнаружила в конце 2024 года утечку больших объёмов данных через учётные записи разработчиков OpenAI, предположительно связанные с DeepSeek.
Дистилляция — распространённая практика, однако условия обслуживания OpenAI запрещают использование выводов моделей компании для создания конкурирующих моделей. При этом, многие модели ошибочно идентифицируют себя и используют схожие фразы, что связано с «загрязнением» открытого интернета, являющегося основным источником данных для обучения ИИ. Массовое создание контента с помощью ИИ и активность ботов в социальных сетях затрудняют фильтрацию данных.
Несмотря на это, эксперты, такие как Нейтан Ламберт из исследовательского института AI2, считают, что обучение DeepSeek на данных Gemini вполне возможно. Ламберт предположил, что использование API Gemini оказалось бы для DeepSeek более эффективным, чем собственные разработки.
В ответ на проблему дистилляции компании усиливают меры безопасности. В апреле OpenAI ввела обязательную верификацию личности для доступа к некоторым продвинутым моделям, Китай в список поддерживаемых стран не входит. Google начала «резюмировать» трассировки моделей, доступных через платформу AI Studio, затрудняя обучение конкурирующих моделей на данных Gemini. Компания Anthropic также объявила о подобных мерах в мае.