La IA se encuentra cada vez más especializada en distintos ámbitos. Y esta vez, su campo de acción ha llegado a uno de los formatos multimedia más consumidos en el mundo: los podcasts. Microsoft acaba de liberar la app de VibeVoice-Realtime-0.5B, un modelo de síntesis de voz (TTS) capaz de generar un audio de voz natural en tan solo 300 milisegundos desde que enviamos el prompt.
Es decir, que con esta herramienta, basta con que escribamos un guion y la IA lo transformará en una voz humana fluida, que cuenta con tonos de voz realistas, entonaciones, y sin largos tiempos de espera para que se cree. De hecho, tiene capacidad de generar audios de hasta 90 minutos sin perder calidad alguna. Por lo que puede que estemos ante un aliado perfecto a la hora de crear podcasts, audiolibros o contenido narrado.
De esta manera, VibeVoice pretende democratizar la producción de audio de manera profesional. Y permite a cualquier creador, desde su propio PC, tener una «cabina de grabación» (aunque sea virtual). Sin embargo, tampoco hemos de dejar de lado los interrogantes éticos que su uso supone…
Qué es VibeVoice-Realtime-0.5B
VibeVoice (acortamiento que utilizaremos a partir de ahora) es un modelo de síntesis de voz TTS, que en inglés quiere decir «Text to speech», desarrollado por la propia Microsoft. Acaba de ser publicado bajo licencia abierta, por lo que se puede utilizar de manera gratuita desde ya. Pero el valor principal que lo diferencia del resto, más allá de la gratuidad, es que es capaz de empezar a emitir voz en 300 milisegundos tras recibir el texto. Una cifra extremadamente rápida y que se aleja del segundo o varios segundos que suelen necesitar otros sistemas.
Cuenta con «solo» 0.5B de parámetros, algo que puede parecer modesto en comparación con modelos completos como ChatGPT o Gemini, pero es precisamente ello lo que nos permite generar audios de hasta 90 minutos de manera continua, con una voz clara y entonación coherente. Algo que mantiene durante toda la duración del podcast.
cocktail peanut@cocktailpeanut1-Click Vibevoice-Realtime for ALL machinesFinally a Realtime TTS that is ACTUALLY realtime, thanks to its tiny size! (0.5B params)
This video is from my Windows machine, recorded in realtime. All you need is around 2.5GB VRAM, it even works on Macs! https://t.co/AwfeCRgGPk https://t.co/jexINzSbZf
05 de diciembre, 2025 • 00:32
273
4
Este modelo está pensado para transformar masas de texto en voz de manera fluida e inmediata, lo cual resulta ideal para todo tipo de contenido por voz: desde podcasts hasta narraciones, audiolibros, diálogos ficticios o entrevistas simuladas. Esta versatilidad es sumamente atractiva para los creadores independientes que cuenten con recursos más limitados a la hora de crear contenido multimedia. Basta con que compartamos un guion con la IA, y VibeVoice hará el resto.
Aun así, Microsoft ha liberado dicha IA bajo un marco de investigación, y ha advertido que no debe emplearse para deepfakes, suplantaciones y otros usos ilegales.
Ventajas y riesgos para los creadores de contenido
Desde el punto de vista estrictamente creativo, VibeVoice supone un nuevo abanico de posibilidades para usuarios individuales con interés en guiones, novelas o podcasts. El hecho de utilizar esta herramienta significa que podemos generar versiones habladas de relatos, capítulos, textos largos o transcribir entrevistas. Esto agiliza cualquier producción, reduce los costes y permite una creación rápida. Es decir, que facilita la barrera de entrada para este tipo de contenido, pues solo necesitamos tener un ordenador y acceso al modelo para crear audio de manera profesional.
Aun así, debemos tener en cuenta que no todo van a ser ventajas. Y esto es importante recalcarlo. Al tratarse de una IA de síntesis de voz, nos encontramos de pleno ante riesgos éticos y técnicos. En malas manos, esta app nos ofrece la posibilidad de crear deepfakes, suplantar voces, producir contenido engañoso o utilizarlo sin consentimiento. En su ficha de lanzamiento, Microsoft advierte expresamente de usos ilegales como fraude o suplantación de identidad, y prohíbe su uso en contextos de desinformación. Y a pesar de que el modelo es capaz de generar una voz natural (la puedes oír en el tuit de arriba), aún no puede igualar a la naturalidad real de las voces humanas con todas sus sutilezas. Es decir, en cuanto a entonaciones, pausas naturales, respiraciones, matices emocionales…
