Modelo de Voz IA

Dia de Nari Labs: Un Nuevo Modelo de Voz IA Compite con NotebookLM

El campo del habla sintética está experimentando un rápido crecimiento, con numerosos actores compitiendo por el dominio. Entre los participantes más recientes se encuentra "Dia", un modelo de IA desarrollado por Nari Labs, fundado por dos estudiantes universitarios. Dia tiene como objetivo proporcionar a los usuarios un mayor control sobre las voces generadas y la personalización de scripts, inspirándose en NotebookLM de Google.

Toby Kim, uno de los cofundadores, mencionó que comenzaron a explorar la IA del habla solo tres meses antes. Aprovechando el programa TPU Cloud de Google, que ofrece acceso gratuito a los chips de IA TPU, entrenaron a Dia, un modelo de 1.6 mil millones de parámetros capaz de generar diálogos a partir de scripts. Los usuarios pueden ajustar los tonos de los oradores e incorporar señales no verbales como tos y risas.

Accesibilidad y Funcionalidad

Dia está disponible en plataformas como Hugging Face y GitHub, lo que lo hace accesible a un público amplio. Puede operar en la mayoría de las PC modernas equipadas con al menos 10 GB de VRAM. Si bien genera voces aleatorias de forma predeterminada, los usuarios pueden guiarlo con descripciones de estilo o incluso clonar voces.

Las primeras pruebas han demostrado que Dia es bastante eficaz, generando rápidamente conversaciones bidireccionales sobre diversos temas. La calidad de la voz es competitiva con las herramientas existentes, y la funcionalidad de clonación de voz destaca por su facilidad de uso.

Consideraciones Éticas

Al igual que muchos generadores de voz, Dia carece de salvaguardias sólidas contra el uso indebido. Esto plantea preocupaciones sobre el potencial de creación de desinformación o grabaciones fraudulentas. Nari Labs reconoce estos riesgos y desaconseja el uso dañino, pero declina la responsabilidad por el uso indebido. Además, los datos utilizados para entrenar a Dia no se han divulgado, lo que plantea preguntas sobre una posible infracción de derechos de autor, una práctica común pero jurídicamente ambigua en el desarrollo de la IA.

Planes Futuros

Nari Labs prevé la construcción de una plataforma de voz sintética con funcionalidades sociales sobre Dia y futuros modelos más grandes. También planean lanzar un informe técnico y ampliar el soporte de idiomas más allá del inglés.

1 Vídeo del Modelo de Voz IA:

Fuente: TechCrunch