Компания "Антропик", задействующая чат-бот "Клод", заплатит полтора миллиарда долларов за пиратское использование 500 тысяч книг для обучения модели искусственного интеллекта.
В "Антропике" свой БЯМ обучали прежде всего на художественных и публицистических книгах, поскольку написанные профессионалами и отредактированные современные тексты – гарантия того, что языковая модель будет разговаривать связно, культурно и гладко. Если же обучать "чат-бота" на большой массе случайных текстов из интернета, велика вероятность того, что он будет изъясняться "шершаво" и безграмотно.
В "Антропике" для этой цели применили своеобразную технологию. Сначала там наняли бывшего специалиста по оцифровке книг из проекта "Гугл-букс" Тома Верви. Тот организовал массовую закупку книг, часто в букинистических магазинах, их разрезание на отдельные листы и сканирование.
Однако в итоге это оказалось делом небыстрым и хлопотным. Поэтому в "Антропике" решили действовать на авось – скачивали через "торрент" сразу тысячами книги на разных языках в виде текстовых файлов и "скармливали" их языковой модели.
"Авось" не прошел – когда "чат-боты" стали масштабно "раскручиваться" и приносить компаниям большие деньги, сразу же нашлось много желающих "присосаться" к такому пирогу. И одними из первых стали создатели контента, на котором обучались языковые модели.
Однако до сих пор попытки авторов текстов "примазаться" к прибылям операторов ИИ не удались – суды не усматривают нарушения авторских прав в самом факте "обучающего" использования чужих произведений.
Так и на процессе против "Антропика", который затеяли три американских писателя – Андреа Барц, Чарльз Гребер и Кирк Джонсон, они от имени множества сочинителей требовали "авторских" за обучение искусственного интеллекта на своих текстах.
Однако калифорнийский судья Уильям Алсуп постановил, что на бумажные книги, приобретенные обычным порядком, распространяется "правило первой покупки" – если книга изначально была приобретена обычным порядком, покупатель имеет право делать с ней что угодно. Кроме, разумеется, самостоятельной публикации содержащегося в ней текста, но этого операторы "чат-ботов" и не делают.
Однако тот же судья объявил, что на книги, полученные методом пиратского скачивания, этот принцип не распространяется. По требованию суда "Антропик" предоставил внутреннюю документацию, и в конечном итоге истцам удалось составить список на 500 тысяч книг, которые разработчики "Клода" якобы скачали из пиратских библиотек Library Genesis и Pirate Library Mirror.
В "Антропике" предпочли заключить с истцами досудебное соглашение, выплатив в общей сложности полтора миллиарда долларов – по 3000 за каждую из 500 тысяч незаконно скачанных книг. Эти деньги пойдут авторам и, возможно, издателям.
Однако, к разочарованию истцов, общий принцип, согласно которому авторы законно приобретенных книг не могут претендовать на часть прибыли от обучения на их текстах, суд оставил в силе.
Правда, в данном случае дело шло именно о бумажных книгах, при приобретении которых покупатель не подтверждает никаких лицензионных условий и не берет на себя никаких обязательств, кроме тех, что налагают государственные законы.
При покупке электронных книг обычно оговариваются условия эксплуатации контента, включая запрет на переписывание файлов, использование их в посторонних целях и т. п.
Впрочем, судебных споров именно относительно использования электронных книжных копий, приобретенных для обучения ИИ, пока не было. Фирмы, задействующие чат-боты, предпочитают обучать их на не лицензируемом (хотя и охраняемом авторским правом) контенте. Это либо общедоступные тексты из интернета, либо старые книги и журналы, авторские права на которые уже утрачены. Однако второй вариант не слишком приемлем, так как это тексты, которым более 70 лет. Они неактуальны, частично используют устаревший словарный запас и, наоборот, в них нет современной терминологии, географических названий и т. п.
Отметим, что рыночная стоимость "Антропика" на данный момент оценивается в 65 миллиардов долларов, а ее годовой оборот - 3 миллиарда долларов. Выплата в полтора миллиарда не разорит компанию, но существенно скажется на текущих расходах.
Услуги "Клода" пользуются спросом из-за того, что он заточен под программистские задачи и поддержку длинных "контекстов" - то есть умение учитывать в своих рассуждениях большое количество предварительного материала, уже обсужденного или заданного в рамках текущей задачи.
__________________________________
Другие новости
● Испания запретила израильским шахматистам выступать под своим флагом. ФИДЕ: мы не знали
● И затеяли вновь отворять: в ЦАХАЛе разъяснили причину сноса оставшихся в Газе многоэтажек
● Проблемой меньше: ВОЗ больше не считает опасную инфекцию "мировой угрозой"
● Дрожи, Ким Чен Ын: танки "Юндай" оснастят израильской "ветровкой"
комментарии