martes, 1 de julio de 2025

Modelos de IA y propiedad intelectual: resoluciones sobre fair use

 

   Tras el reciente planteamiento ante el TJUE de una primera cuestión prejudicial acerca de la interacción entre herramientas de IA y propiedad intelectual, que ha dado lugar al asunto C-250/50, la actualidad en este ámbito ha estado marcada por las dos resoluciones estadounidenses de la semana pasada relativas al alcance de la doctrina del fair use. Se trata de las resoluciones (de dos jueces federales diferentes) de la United States District Court for the Northern District of California en el asunto Bartz v. Anthropic y en el asunto Kadrey v. Meta Platforms. Aunque estas dos resoluciones parciales hayan sido favorables para las demandadas, al considerar ciertas actividades supuestamente infractoras como admisibles con base en la doctrina del fair use de la legislación estadounidense, resultan ilustrativas de los límites de esta doctrina en este ámbito. Precisamente, en un contexto distinto había alcanzado ya un resultado diferente el pasado mes de febrero la resolución de la United States District Court for the District of Delaware en el asunto Thomson Reuters Enterprise Centre GmbH & West Publishing Corp. v. ROSS Intelligence Inc., considerando en ese caso que la actividad infractora de la demandada -utilizando contenidos de la demandante para desarrollar un modelo destinado competidor- no estaba amparada por la doctrina del fair use. Cabe recordar que esta doctrina, recogida en la Sección 107 de la US Copyright Act, es la pieza clave del sistema de límites a los derechos de autor en EEUU. Se trata de un marco legal que contrasta con el sistema rígido de limitaciones y excepciones a los derechos de autor y derechos afines instaurado en la UE, como resulta principalmente de lo dispuesto en el artículo 5 de la Directiva 2001/29 y en el Título II de la Directiva 2019/790. Sin perjuicio de que el diferente marco legal facilita respuestas parcialmente distintas a ambos lados del Atlántico, no cabe desconocer que se trata de un ámbito en el que la armonización internacional promueve también cierta coordinación, como ilustra, en particular, el llamado criterio de los tres pasos, que requiere que las excepciones y limitaciones únicamente sean aplicables en determinados casos concretos que no entren en conflicto con la explotación normal de la obra o prestación y no perjudiquen injustificadamente los intereses legítimos del titular del derecho.

 

I. Hechos

Con respecto a los antecedentes de los casos objeto de las dos resoluciones de la semana pasada reseñadas, lo primero que llama la atención es la actitud de total desprecio a los derechos de autor por parte de las empresas demandadas, que no dudaron en utilizar sistemáticamente obras pirateadas en el entrenamiento de sus modelos de IA, pese a los extraordinarios recursos de lo que (al menos una de ellas) disponen.

    Los dos asuntos tienen su origen en demandas interpuestas por autores frente a demandadas (Anthropic y Meta) que han desarrollado modelos de IA generativa LLM (Large Language Models), capaces, por lo tanto, de generar textos elaborados. Las demandas van referidas a las eventuales infracciones en el proceso de entrenamiento y desarrollo de esos modelos. Anthropic desarrolló su LLM (Claude) utilizando dos conjuntos de datos. Inicialmente, uno formado por más de siete millones de obras obtenidas de sitios web de intercambio de archivos donde se encontraban pirateadas. Posteriormente, otro que formó escaneando libros que compró en soporte físico para crear ese nuevo conjunto de datos. Los demandantes sostienen que la utilización de sus obras para formar esos conjuntos de datos y entrenar el modelo de IA constituían infracciones de sus derechos de autor. Por su parte, Meta entrenó su LLM (Llama) utilizando conjuntos de datos descargados de repositorios en línea, incluyendo bibliotecas pirateadas que permitían la descarga gratuita de obras, ciertamente puestas a disposición del público sin autorización de los titulares de derechos.

II. Aplicación de la doctrina del fair use

La aplicación práctica del fair use está directamente condicionada por las circunstancias del caso concreto. Como es propio de las resoluciones sobre fair use, las dos resoluciones de la semana pasada se centran en valorar, respecto de cada uno de los casos, los cuatro factores para determinar si el uso que se hace de una obra queda amparado por esa doctrina. Precedente muy notable al respecto vinculado a otra práctica de gran repercusión es la sentencia de 16 de octubre de 2015 del Tribunal de Apelación del Segundo Circuito (United States Court of Appeals for the Second Circuit), citada reiteradamente en estas dos nuevas resoluciones, que reseñé en su momento aquí.

Los cuatro factores a los que hace referencia expresa, con carácter meramente indicativo, la mencionada Secc. 107 son: (1) el propósito y el carácter del uso que se lleva a cabo de la obra protegida, incluyendo si es de naturaleza comercial o tiene fines educativos no lucrativos; (2) la naturaleza de la obra protegida; (3) la cantidad y sustancialidad de la parte utilizada en relación con la obra protegida en su conjunto; y (4) el efecto del uso sobre el mercado potencial o el valor de la obra protegida.

III. Formación de los conjuntos de datos y entrenamiento de los modelos de IA

Teniendo en cuenta que los dos casos ahora reseñados van referidos al desarrollo de modelos de IA generativa a partir de obras literarias de autores, en las resoluciones analizada se atribuye mucha relevancia al carácter transformador del uso de esas obras llevado a cabo por las demandadas, habida cuenta del potencial innovador de esos modelos de IA y su eventual utilización para múltiples tareas. Se trata de una circunstancia determinante al valorar el primero de los cuatro factores, de cara a apreciar que legitima esos usos de las obras.

Ahora bien, en la aplicación de la doctrina del fair use, con gran frecuencia resulta determinante el cuarto de los factores, acerca de las consecuencias del uso sobre el mercado potencial o el valor de la obra utilizada. Aunque al aplicarlo las dos resoluciones adoptan planteamiento diferentes, ambas atribuyen importancia a que a la mera formación del conjunto de datos para el entrenamiento del modelo por sí solo no afecta al mercado de las obras literarias en cuestión. Se trata de un planteamiento que puede ser discutible, pues cabe entender que sí puede afectar, por lo menos, a la obtención de ingresos derivados de las eventuales licencias de uso de las obras con tales fines.

En todo caso, la resolución en Bartz v. Anthropic sí considera que la creación inicial del conjuntos de datos mediante el almacenamiento de millones de obras pirateadas obtenidas de sitios web de intercambio de archivos no resulta amparado por la doctrina de fair use, pues la creación de una mera biblioteca pirata no puede considerase transformativa en la aplicación del primero de los cuatro factores (“Such piracy of otherwise available copies is inherently, irredeemably infringing even if the pirated copies are immediately used for the transformative use and immediately discarded”, pág 19). En consecuencia, el procedimiento en ese asunto continúa con respecto a esa eventual infracción.

III. Resultados generados por los modelos de IA

           En tanto que referidas únicamente a la formación de los conjuntos de datos y entrenamiento de los modelos de IA, las resoluciones destacan su carácter limitado, en el sentido de que no excluyen que en otras circunstancias o respecto de otras pretensiones, entidades como las demandadas no pudieran beneficiarse de la doctrina de fair use. De hecho, en la resolución comentada del asunto Kadrey v. Meta Platforms (pág. 1) se afirma expresamente que el empleo, para el desarrollo de modelos de IA, de materiales protegidos por derechos de autor disponibles en Internet sin el consentimiento de sus titulares constituirá en la mayor parte de los casos una conducta ilegal.

Las dos resoluciones ponen de relieve que el resultado del análisis del cuarto factor podría ser diferente -y, por lo tanto, llevar a la declaración de infracción- en caso de que los demandados consiguieran acreditar que los resultados que generan los modelos incluyen contenidos que infringen los derechos de los titulares (“Authors concede that training LLMs did not result in any exact copies nor even infringing knockoffs of their works being provided to the public. If that were not so, this would be a different case. Authors remain free to bring that case in the future should such facts develop”, Bartz v. Anthropic, p. 27).

Ahora bien, precisamente, en Bartz v. Anthropic (vid. pp. 11-12) la resolución hace referencia a la supuesta interposición por la demandada de un software adicional entre el usuario y el LLM subyacente, destinado a garantizar que no llegaban resultado infractores a los usuarios.

Por su parte, la resolución en Kadrey v. Meta Platforms deja abierto -frente a la resolución en Bartz v. Anthropic, a la que expresamente crítica sobre este punto (pág. 3 de la resolución en Kadrey v. Meta Platforms)- que, al margen de que los resultados que genera el modelo para sus usuarios incluyan textos propiamente constitutivos de infracción, la circunstancia de que el modelo permita generar obras similares a las originales, que puedan competir o ser una alternativa a las de los demandantes, puede ser un elemento clave al valorar el cuarto factor.  

Por el menoscabo que el desarrollo de modelos LLM implica al mercado de las obras utilizadas, en la medida en que permite generar innumerables obras semejantes sin esfuerzo, podría inclinar en tal caso ese factor a favor de los demandantes, excluyendo que las demandadas se pudieran benefeciar del fair use. Destaca, además, que en la práctica esto no va a impedir el desarrollo de los modelos de IA, sino sencillamente facilitar un reparto más equitativo de los beneficios generados, resultando muy relevante que obras valiosas protegidas mediante derechos de autor, particularmente libros, resultan especialmente valiosas, por su alta calidad, como material para entrenar el modelo de IA (“These products are expected to generate billions, even trillions, of dollars for the companies that are developing them. If using copyrighted works to train the models is as necessary as the companies say, they will figure out a way to compensate copyright holders for it.(pag. 4 del documento citado) ).

En todo caso, pese a ese punto de partida, la resolución no es favorable a los autores, básicamente por no haber argumentado en el caso concreto que Meta ha copiado sus obras para crear un producto que probablemente inundará el mercado con obras similares causando la dilución del mercado. La resolución deja claro que sólo afecta a los derechos de los trece autores demandantes, destacando que su resultado viene determinado porque el juez considera que los demandantes se equivocaron de argumentos y no desarrollaron el correcto, pero no implica que el uso realizado por parte de Meta de materiales protegidos por derechos de autor para entrenar sus modelos sea lícito. 

IV. Un par de apuntes desde la perspectiva europea

         Cuanto mayor es el volumen de contenidos utilizados en el entrenamiento del modelo y mayor es el desarrollo alcanzado por esos modelos, menor es la probabilidad de que los resultados del modelo incluyan reproducciones de fragmentos significativos de esos contenidos, lo que dificultará la apreciación de que por sí solas las respuestas que genere el modelo constituyan actos de reproducción o de comunicación pública. Esta constatación refuerza la importancia para una adecuada protección de los derechos de autor de la tutela del uso de las obras en relación con el entrenamiento de estos modelos de IA

Desde la perspectiva europea un primer elemento relevante es que la excepción o limitación relativa a la minería de textos y datos del artículo 4 de la Directiva 2019/790 sólo opera -dentro de su limitado alcance y eventualmente con el condicionante del criterio de los tres pasos- respecto a las reproducciones y extracciones de obras y otras prestaciones “accesibles de forma legítima” para fines de minería de textos y datos. Además, está sometida a la exigencia de que se aplica solo a condición de que el uso de las obras y otras prestaciones en cuestión no esté reservado expresamente por los titulares de derechos de manera adecuada.

Por otra parte, el que el entrenamiento del modelo tenga lugar fuera de la UE no menoscaba que la mera explotación del mismo en la UE (básicamente su ofrecimiento a usuarios situados en la UE) resulte determinante de la eventual infracción de derechos en la UE. Sobre esta base está construido el propio Reglamento (UE) de Inteligencia Artificial, como resulta, en particular, de su cdo. 105 y de su art. 53.1.c), en cuya aplicación efectiva las obligaciones de transparencia acerca de los contenidos utilizados para el entrenamiento del modelo de IA -art. 53.1.d)- serán de especial relevancia [para no repetirme, sobre estas cuestiones me remito aquí, secc. 5]. La resolución reseñada en Kadrey v. Meta Platforms (pág. 10) admite implícitamente que esta consecuencia del principio de territorialidad es un condicionante relevante, cuando alude entre las supuestas dificultades de Meta para obtener licencias (“Even where publishers do hold AI training licensing rights, they do so regionally rather than globally”)