Tras el reciente planteamiento ante el TJUE de una primera cuestión
prejudicial acerca de la interacción entre herramientas de IA y propiedad
intelectual, que ha dado lugar al asunto C-250/50, la actualidad en
este ámbito ha estado marcada por las dos resoluciones estadounidenses de la
semana pasada relativas al alcance de la doctrina del fair use. Se trata
de las resoluciones (de dos jueces federales diferentes) de la United States
District Court for the Northern District of California en el asunto Bartz v.
Anthropic y en el asunto Kadrey v. Meta Platforms. Aunque estas dos resoluciones parciales hayan sido favorables para las
demandadas, al considerar ciertas actividades supuestamente infractoras como
admisibles con base en la doctrina del fair use de la legislación
estadounidense, resultan ilustrativas de los límites de esta doctrina en este
ámbito. Precisamente, en un contexto distinto había alcanzado ya un resultado
diferente el pasado mes de febrero la resolución de la United
States District Court for the District of Delaware en el asunto Thomson Reuters Enterprise Centre GmbH &
West Publishing Corp. v. ROSS Intelligence Inc., considerando en ese caso que la actividad
infractora de la demandada -utilizando contenidos de la demandante para
desarrollar un modelo destinado competidor- no estaba amparada por la doctrina
del fair use. Cabe recordar que esta doctrina, recogida en la Sección
107 de la US Copyright Act, es la pieza clave del sistema de límites a
los derechos de autor en EEUU. Se trata de un marco legal que contrasta con el
sistema rígido de limitaciones y excepciones a los derechos de autor y derechos
afines instaurado en la UE, como resulta principalmente de lo dispuesto en el
artículo 5 de la Directiva 2001/29 y en el Título II de la Directiva 2019/790.
Sin perjuicio de que el diferente marco legal facilita respuestas parcialmente
distintas a ambos lados del Atlántico, no cabe desconocer que se trata de un
ámbito en el que la armonización internacional promueve también cierta
coordinación, como ilustra, en particular, el llamado criterio de los tres
pasos, que requiere que las excepciones y limitaciones únicamente sean
aplicables en determinados casos concretos que no entren en conflicto con la
explotación normal de la obra o prestación y no perjudiquen injustificadamente
los intereses legítimos del titular del derecho.
I. Hechos
Con respecto a los antecedentes de los casos
objeto de las dos resoluciones de la semana pasada reseñadas, lo primero que llama la
atención es la actitud de total desprecio a los derechos de autor
por parte de las empresas demandadas, que no dudaron en utilizar sistemáticamente
obras pirateadas en el entrenamiento de sus modelos de IA, pese a los
extraordinarios recursos de lo que (al menos una de ellas) disponen.
Los dos asuntos
tienen su origen en demandas interpuestas por autores frente a demandadas
(Anthropic y Meta) que han desarrollado modelos de IA generativa LLM (Large
Language Models), capaces, por lo tanto, de generar textos elaborados. Las
demandas van referidas a las eventuales infracciones en el proceso de
entrenamiento y desarrollo de esos modelos. Anthropic desarrolló su LLM (Claude)
utilizando dos conjuntos de datos. Inicialmente, uno formado por más de siete
millones de obras obtenidas de sitios web de intercambio de archivos donde se
encontraban pirateadas. Posteriormente, otro que formó escaneando libros que
compró en soporte físico para crear ese nuevo conjunto de datos. Los
demandantes sostienen que la utilización de sus obras para formar esos
conjuntos de datos y entrenar el modelo de IA constituían infracciones de sus
derechos de autor. Por su parte, Meta entrenó su LLM (Llama) utilizando
conjuntos de datos descargados de repositorios en línea, incluyendo bibliotecas
pirateadas que permitían la descarga gratuita de obras, ciertamente puestas a
disposición del público sin autorización de los titulares de derechos.
II. Aplicación de la doctrina del fair use
La aplicación práctica del fair use está
directamente condicionada por las circunstancias del caso concreto. Como es
propio de las resoluciones sobre fair use, las dos resoluciones de la
semana pasada se centran en valorar, respecto de cada uno de los casos, los
cuatro factores para determinar si el uso que se hace de una obra queda
amparado por esa doctrina. Precedente muy notable al respecto vinculado a otra
práctica de gran repercusión es la sentencia de 16 de octubre de 2015 del
Tribunal de Apelación del Segundo Circuito (United States Court of Appeals
for the Second Circuit), citada reiteradamente en estas dos nuevas
resoluciones, que reseñé en su momento aquí.
Los cuatro factores a los que hace referencia
expresa, con carácter meramente indicativo, la mencionada Secc. 107 son: (1) el
propósito y el carácter del uso que se lleva a cabo de la obra protegida,
incluyendo si es de naturaleza comercial o tiene fines educativos no
lucrativos; (2) la naturaleza de la obra protegida; (3) la cantidad y
sustancialidad de la parte utilizada en relación con la obra protegida en su
conjunto; y (4) el efecto del uso sobre el mercado
potencial o el valor de la obra protegida.
III. Formación de los conjuntos de datos y entrenamiento de los modelos
de IA
Teniendo en cuenta que los dos casos ahora
reseñados van referidos al desarrollo de modelos de IA generativa a partir de
obras literarias de autores, en las resoluciones analizada se atribuye mucha
relevancia al carácter transformador del uso de esas obras llevado a cabo por
las demandadas, habida cuenta del potencial innovador de esos modelos de IA y
su eventual utilización para múltiples tareas. Se trata de una circunstancia
determinante al valorar el primero de los cuatro factores, de cara a apreciar
que legitima esos usos de las obras.
Ahora bien, en la aplicación de la doctrina
del fair use, con gran frecuencia resulta determinante el cuarto de los
factores, acerca de las consecuencias del uso sobre el mercado potencial o el
valor de la obra utilizada. Aunque al aplicarlo las dos resoluciones adoptan
planteamiento diferentes, ambas atribuyen importancia a que a la mera formación
del conjunto de datos para el entrenamiento del modelo por sí solo no afecta al
mercado de las obras literarias en cuestión. Se trata de un planteamiento que
puede ser discutible, pues cabe entender que sí puede afectar, por lo menos, a
la obtención de ingresos derivados de las eventuales licencias de uso de las
obras con tales fines.
En todo caso, la resolución en Bartz v.
Anthropic sí considera que la creación inicial del conjuntos de datos
mediante el almacenamiento de millones de obras pirateadas obtenidas de sitios
web de intercambio de archivos no resulta amparado por la doctrina de fair
use, pues la creación de una mera biblioteca pirata no puede considerase
transformativa en la aplicación del primero de los cuatro factores (“Such
piracy of otherwise available copies is inherently, irredeemably infringing
even if the pirated copies are immediately used for the transformative use and
immediately discarded”, pág 19). En consecuencia, el procedimiento en ese
asunto continúa con respecto a esa eventual infracción.
III. Resultados generados por los modelos de IA
En tanto que
referidas únicamente a la formación de los conjuntos de datos y entrenamiento
de los modelos de IA, las resoluciones destacan su carácter limitado, en el
sentido de que no excluyen que en otras circunstancias o respecto de otras pretensiones,
entidades como las demandadas no pudieran beneficiarse de la doctrina de fair
use. De hecho, en la resolución comentada del asunto Kadrey v. Meta Platforms (pág. 1) se afirma expresamente que el
empleo, para el desarrollo de modelos de IA, de materiales protegidos por
derechos de autor disponibles en Internet sin el consentimiento de sus
titulares constituirá en la mayor parte de los casos una conducta ilegal.
Las dos resoluciones ponen de relieve que el
resultado del análisis del cuarto factor podría ser diferente -y, por lo tanto,
llevar a la declaración de infracción- en caso de que los demandados consiguieran
acreditar que los resultados que generan los modelos incluyen contenidos que
infringen los derechos de los titulares (“Authors concede that training LLMs
did not result in any exact copies nor even infringing knockoffs of their works
being provided to the public. If that were not so, this would be a different
case. Authors remain free to bring that case in the future should such facts
develop”, Bartz v. Anthropic, p. 27).
Ahora bien, precisamente, en Bartz v. Anthropic (vid. pp. 11-12) la
resolución hace referencia a la supuesta interposición por la demandada de un
software adicional entre el usuario y el LLM subyacente, destinado a garantizar
que no llegaban resultado infractores a los usuarios.
Por su parte,
la resolución en Kadrey v. Meta
Platforms deja abierto -frente
a la resolución en Bartz v.
Anthropic, a la que expresamente crítica sobre este punto (pág. 3 de la resolución
en Kadrey v. Meta Platforms)- que, al margen de que los resultados que
genera el modelo para sus usuarios incluyan textos propiamente constitutivos de
infracción, la circunstancia de que el modelo permita generar obras similares a
las originales, que puedan competir o ser una alternativa a las de los
demandantes, puede ser un elemento clave al valorar el cuarto factor.
Por el menoscabo que el desarrollo de modelos
LLM implica al mercado de las obras utilizadas, en la medida en que permite
generar innumerables obras semejantes sin esfuerzo, podría inclinar en tal caso
ese factor a favor de los demandantes, excluyendo que las demandadas se pudieran
benefeciar del fair use. Destaca, además, que en la práctica esto no va
a impedir el desarrollo de los modelos de IA, sino sencillamente facilitar un
reparto más equitativo de los beneficios generados, resultando muy relevante
que obras valiosas protegidas mediante derechos de autor, particularmente
libros, resultan especialmente valiosas, por su alta calidad, como material
para entrenar el modelo de IA (“These products are expected to generate
billions, even trillions, of dollars for the companies that are developing
them. If using copyrighted works to train the models is as necessary as the
companies say, they will figure out a way to compensate copyright holders for
it.” (pag. 4 del documento
citado) ).
En todo caso, pese a ese punto de partida, la resolución no es favorable a los autores, básicamente por no haber argumentado en el caso concreto que Meta ha copiado sus obras para crear un producto que probablemente inundará el mercado con obras similares causando la dilución del mercado. La resolución deja claro que sólo afecta a los derechos de los trece autores demandantes, destacando que su resultado viene determinado porque el juez considera que los demandantes se equivocaron de argumentos y no desarrollaron el correcto, pero no implica que el uso realizado por parte de Meta de materiales protegidos por derechos de autor para entrenar sus modelos sea lícito.
IV. Un par de apuntes desde la perspectiva europea
Cuanto mayor es el volumen de contenidos
utilizados en el entrenamiento del modelo y mayor es el desarrollo alcanzado
por esos modelos, menor es la probabilidad de que los resultados del modelo incluyan
reproducciones de fragmentos significativos de esos contenidos, lo que
dificultará la apreciación de que por sí solas las respuestas que genere el
modelo constituyan actos de reproducción o de comunicación pública. Esta
constatación refuerza la importancia para una adecuada protección de los
derechos de autor de la tutela del uso de las obras en relación con el entrenamiento
de estos modelos de IA
Desde la perspectiva europea un primer
elemento relevante es que la excepción o limitación relativa a la minería de
textos y datos del artículo 4 de la Directiva 2019/790 sólo opera -dentro de su
limitado alcance y eventualmente con el condicionante del criterio de los tres
pasos- respecto a las reproducciones y extracciones de obras y otras
prestaciones “accesibles de forma legítima” para fines de minería de textos y
datos. Además, está sometida a la exigencia de que se aplica solo a condición
de que el uso de las obras y otras prestaciones en cuestión no esté reservado
expresamente por los titulares de derechos de manera adecuada.
Por otra parte, el que el entrenamiento del
modelo tenga lugar fuera de la UE no menoscaba que la mera explotación del
mismo en la UE (básicamente su ofrecimiento a usuarios situados en la UE)
resulte determinante de la eventual infracción de derechos en la UE. Sobre esta
base está construido el propio Reglamento (UE) de Inteligencia Artificial, como
resulta, en particular, de su cdo. 105 y de su art. 53.1.c), en cuya aplicación
efectiva las obligaciones de transparencia acerca de los contenidos utilizados para
el entrenamiento del modelo de IA -art. 53.1.d)- serán de especial relevancia [para
no repetirme, sobre estas cuestiones me remito aquí, secc. 5]. La
resolución reseñada en Kadrey v.
Meta Platforms (pág. 10) admite
implícitamente que esta consecuencia del principio de territorialidad es un
condicionante relevante, cuando alude entre las supuestas dificultades de Meta
para obtener licencias (“Even where publishers do hold AI training licensing
rights, they do so regionally rather than globally”)