Nvidia искала пиратские книги в Anna's Archive для обучения ИИ

Инженеры Nvidia напрямую обращались к Anna's Archive, одному из крупнейших в интернете хранилищ пиратских книг, с просьбой предоставить доступ к коллекции для обучения языковых моделей компании. Так утверждается в обновлённом иске, поданном в пятницу в федеральный суд Калифорнии. Согласно документу, в котором цитируется внутренняя переписка компании, руководство Nvidia одобрило получение данных в течение недели после предупреждения о том, что материалы добыты незаконно.

Полпетабайта книг

В иске говорится, что сотрудник команды по стратегии данных Nvidia обратился в Anna's Archive с вопросом, какие ресурсы теневая библиотека может предложить для предварительного обучения больших языковых моделей. Anna's Archive агрегирует пиратский контент с LibGen, Sci-Hub, Z-Library и других источников. За высокоскоростной SFTP-доступ к коллекции она берёт десятки тысяч долларов.

Согласно материалам дела, Nvidia интересовалась условиями высокоскоростного доступа примерно к 500 терабайтам данных. Цифра внушительная. Anna's Archive утверждает, что в её каталоге более 61 миллиона книг и 95 миллионов научных статей, а общий объём торрентов достигает 1,1 петабайта.

Теневая библиотека, судя по всему, предупредила Nvidia о незаконном происхождении своих фондов. В иске указано, что Anna's Archive спросила, есть ли у компании внутреннее согласование на такие действия с учётом правовых рисков. Руководство дало добро в течение недели.

Заплатила ли Nvidia в итоге, неясно. В иске об этом ничего нет.

Не первый случай с пиратскими данными

Для Nvidia это не новая территория, если верить истцам. Авторы Абди Наземян, Брайан Кин и Стюарт О'Нан изначально подали иск в марте 2024 года из-за использования компанией датасета Books3, коллекции примерно из 196 640 пиратских книг, собранных с ныне закрытой теневой библиотеки Bibliotik. Books3 входил в The Pile, открытый обучающий корпус. Nvidia публично признавала его использование для своих моделей NeMo Megatron.

Обновлённый иск добавляет новые обвинения: Nvidia также скачивала материалы с LibGen, Sci-Hub и Z-Library. Плюс появились обвинения в косвенном и сопутствующем нарушении авторских прав. Истцы утверждают, что Nvidia распространяла скрипты и инструменты, позволяющие корпоративным клиентам автоматически скачивать The Pile вместе с Books3.

К истцам присоединились авторы Сьюзан Орлеан и Андре Дюбюс III. Они требуют возмещения убытков и уничтожения всех копий Books3, использованных при обучении.

Аргумент про конкурентное давление

Необычна сама подача иска. В нём утверждается, что к пиратству Nvidia подтолкнуло конкурентное давление. Внутренние документы якобы показывают, как команда по стратегии данных металась в поисках обучающих материалов накануне конференции GTC 2023.

В этом есть что-то почти понятное. Качественных текстовых данных действительно мало. Все крупные ИИ-лаборатории дерутся за один и тот же сокращающийся пул чистого, лицензированного контента. Но обращаться к сайту, который прямым текстом предупреждает, что торгует краденым, это черта, которую большинство компаний не стало бы пересекать. Тем более документировать это в рабочей переписке.

Nvidia разрабатывает собственные языковые модели: NeMo, Retro-48B, InstructRetro, Megatron. Это не флагманские продукты. Основные деньги Nvidia делает на продаже чипов, на которых другие компании обучают свои модели. Но внутренние ИИ-разработки важны для демонстрации возможностей, привлечения корпоративных клиентов и конкуренции с исследовательскими лабораториями.

Чем это отличается от дела Meta

Момент неудачный для издателей, рассчитывавших, что этот иск создаст сильный прецедент. В июне прошлого года судья Винс Чхабрия вынес решение по делу *Kadrey v. Meta*: использование Meta пиратских книг для обучения Llama является добросовестным использованием. Решение было узким и привязанным к конкретным обстоятельствам. Чхабрия отдельно отметил, что истцы просто выбрали неудачные аргументы.

Но есть нюанс. В решении Чхабрия признал, что истцы могли бы выиграть, опираясь на теорию размывания рынка: идею о том, что языковые модели способны наводнить рынок контентом, который косвенно конкурирует с оригинальными произведениями. Судья написал, что действия Meta были глубоко трансформативными, но всё ещё могут причинить вред, если авторы представят более убедительные доказательства.

Дело Nvidia касается других моделей, других источников данных и, возможно, других доказательств. И это первый случай, когда переписка между крупной американской технологической компанией и Anna's Archive стала публичной. Тут новая почва.

Anna's Archive не особо скрывается

Теневая библиотека работает с необычной для нелегальной операции открытостью. Она публично рекламирует высокоскоростной доступ для компаний, обучающих языковые модели. По её собственным данным на январь 2025 года, данные получили около 30 организаций, в основном китайские ИИ-лаборатории и дата-брокеры. Модель DeepSeek VL частично обучалась на электронных книгах с сайта.

Юридическое давление на сайт нарастает. В январе 2026 года федеральный судья вынес заочное решение, обязывающее Anna's Archive удалить собранные данные WorldCat. В начале этого месяца домен .org был приостановлен. Бельгийские суды обязали провайдеров блокировать доступ. Германия последовала примеру.

Похоже, это ничего не замедлило. Сайт поддерживает несколько зеркальных доменов и продолжает добавлять контент, включая недавний сбор 300 терабайт метаданных и аудиофайлов Spotify.

Что дальше

Иск на ранней стадии. Nvidia, скорее всего, будет опираться на добросовестное использование, ту же защиту, которую успешно применила Meta. Ранее компания характеризовала Anna's Archive и подобные ресурсы как просто агрегаторов общедоступной информации, оспаривая ярлык теневой библиотеки.

Сработает ли этот аргумент на фоне доказательств прямого обращения и явных предупреждений о незаконности, другой вопрос. Внутренняя переписка меняет нарратив с «мы использовали общедоступные данные» на «мы знали, что это пиратство, и всё равно продолжили».

Дело рассматривается в Федеральном окружном суде Северного округа Калифорнии. Сбор доказательств продолжается.