Texto a voz mejorado de Gemini

20/05/2025 Tecnología y Electrónica

Google mostró avances significativos en las capacidades de texto a voz (TTS) de su IA Gemini en su reciente conferencia para desarrolladores I/O. La nueva función, construida con salida de audio nativa, promete una experiencia conversacional más natural y expresiva.

Conversación multilingüe fluida

Un punto destacado es la capacidad del sistema para cambiar sin problemas entre más de 24 idiomas utilizando una sola voz consistente. Las demostraciones mostraron a la IA cambiando suavemente entre inglés e hindi, manteniendo un notable nivel de consistencia vocal que mejora la ilusión de un solo "hablante".

Más allá de las palabras: matices expresivos

Google enfatiza la mayor expresividad y la entrega matizada del nuevo TTS. La voz de la IA suena considerablemente menos robótica, incorporando inflexiones y tonos más sutiles para crear una experiencia auditiva más atractiva. Si bien la demostración incluyó un modo de susurro, su implementación requiere un mayor escrutinio dado el feedback del usuario.

Accesibilidad y disponibilidad

Esta tecnología TTS mejorada ahora está accesible a través de la API Gemini. Simultáneamente, está disponible una vista previa de la API Gemini Live con diálogo de audio nativo. Estos avances destacan el compromiso continuo de Google para mejorar sus servicios de IA, haciéndolos más potentes y fáciles de usar.

1 Imagen del IA Texto a Voz:

Fuente: Engadget