

Microsoft Busca Rastrear la Influencia de los Datos de Entrenamiento de la IA
Microsoft se ha embarcado en un proyecto de investigación destinado a rastrear la influencia de ejemplos de entrenamiento específicos en modelos de IA generativa. Esta iniciativa, revelada en una oferta de trabajo de diciembre, busca comprender cómo los datos particulares, como fotos y libros, contribuyen a los resultados de estos modelos.
El objetivo del proyecto es desarrollar métodos para estimar de manera eficiente y útil el impacto de los puntos de datos individuales en el contenido generado por la IA. La oferta de trabajo enfatiza la actual falta de transparencia en las arquitecturas de redes neuronales con respecto a las fuentes de sus creaciones, destacando la necesidad de un cambio. Este cambio podría conducir potencialmente a un sistema de incentivos, reconocimiento e incluso pago para las personas que contribuyen con datos valiosos a futuros modelos de IA.
El dilema de los derechos de autor
Esta investigación llega en un momento crucial, ya que los generadores de texto, código, imágenes, vídeo y música impulsados por IA se enfrentan a numerosas demandas por propiedad intelectual. Muchas empresas de IA entrenan sus modelos con vastos conjuntos de datos extraídos de Internet, algunos de los cuales son materiales protegidos por derechos de autor. Si bien estas empresas a menudo invocan la doctrina del "uso justo" para justificar sus prácticas, los creativos están rechazando el uso potencialmente ilegal de su contenido.
Microsoft no es inmune a estos desafíos legales. The New York Times demandó a Microsoft y OpenAI, alegando infracción de derechos de autor debido al uso de millones de artículos de Times en el entrenamiento de sus modelos. Además, los desarrolladores de software demandaron a Microsoft por el uso de su código en el entrenamiento de GitHub Copilot.
Dignidad de los datos y el futuro de la IA
El esfuerzo de investigación de Microsoft, denominado "procedencia en tiempo de entrenamiento", involucra a Jaron Lanier, un destacado tecnólogo y científico de Microsoft Research. Lanier es un defensor de la "dignidad de los datos", que enfatiza la conexión entre el contenido digital y las personas que lo crearon.
Lanier prevé un sistema en el que se reconozca y recompense a los contribuyentes más importantes a un resultado generado por la IA. Por ejemplo, si un modelo de IA crea una pieza de contenido única, los artistas, escritores u otros creadores cuyo trabajo haya influido fuertemente en el resultado serían reconocidos y potencialmente compensados.
Varias empresas ya están explorando conceptos similares. Bria, un desarrollador de modelos de IA, tiene como objetivo compensar a los propietarios de datos en función de su "influencia general". Adobe y Shutterstock también ofrecen pagos a los colaboradores del conjunto de datos. Sin embargo, estos programas aún no son la norma, y muchos grandes laboratorios optan por mecanismos de exclusión voluntaria en lugar de la compensación de los colaboradores.
Si bien este proyecto puede ser solo una prueba de concepto, subraya la creciente importancia de abordar las consideraciones éticas y legales en torno a los datos de entrenamiento de la IA. Otros laboratorios, incluidos Google y OpenAI, han abogado por debilitar las protecciones de derechos de autor para el desarrollo de la IA. Queda por ver si la investigación de Microsoft conducirá a un cambio significativo, pero señala un posible cambio hacia una mayor transparencia y equidad en el mundo de la IA.
Fuente: TechCrunch