Eleven´s Lab es una IA generativa que ofrece una función de clonación de voz. Desde el lanzamiento de esta Start-up en enero, ha acumulado un millón de usuarios registrados que utilizan las funciones de generación de voz. Igual que otras herramientas generativas, mediante la introducción de texto Eleven Labs permite generar una locución. Esta semana, la plataforma ha anunciado que cierra su ronda de inversión con 19 millones de dólares, y va a introducir una actualización para intentar solucionar los problemas que ha supuesto su herramienta de clonación de voz.
Una actualización para frenar los usos perjudiciales de la Inteligencia Artificial
Esta delicada función de voz desde su lanzamiento ha tenido distintos usos que demuestran los problemas y oportunidades que ocasiona esta tecnología. Por un lado, la locución ha sido de gran utilidad para que los usuarios puedan producir podcasts, audiolibros, diálogos de videojuegos e incluso la creación de la primera radio con IA. Todo esto ha sido posible para personas sin acceso a los recursos necesarios para realizar una producción de audio a nivel profesional. En este sentido, ha contribuido a la democratización de la creación sonora.
Por otra parte, el uso de la clonación de voz ha ocasionado una gran controversia por sus implicaciones. Mediante fragmentos de audio de la voz original, la IA es capaz de utilizar esa voz para enunciar cualquier cosa que el usuario introduzca a través de texto. En la práctica, Eleven Labs no ha podido evitar que algunos de sus usuarios utilizasen esta herramienta para perjudicar la imagen de algunas personas famosas. Con un alto nivel de realismo, han sido capaces de poner palabras soeces o políticamente incorrectas en la boca de figuras públicas y celebridades. La dificultad para discernir entre la realidad y las creaciones de la IA tiene un riesgo mayúsculo de difundir noticias falsas muy peligrosas.
¿Una solución insuficiente?
Desde un primer momento, Elevan Labs barajó soluciones como una mayor verificación, introducir copyright a determinadas voces o revisar manualmente las solicitudes de cada usuario. De momento era una herramienta gratuita por lo que también contemplaron la posibilidad de volverla de pago. Finalmente han anunciado la solución por la que han optado: introducir el AI Speech Classifier. Se trata de una herramienta gratuita online que permite detectar si un audio contiene una parte creada por la IA de Eleven Labs. De esta manera pretenden luchar por la máxima transparencia posible y aseguran que funciona en más del 99% de los casos. La eficiencia de detección podría reducirse en el caso de que el audio haya sido modificado con otras herramientas de audio.
Ahora se abre el debate sobre si esta solución es suficiente. El uso perjudicial de la clonación de voz se seguirá llevando a cabo, pero al menos será mucho más detectable. Digno de un capítulo de Black Mirror, imaginemos las implicaciones que puede tener la imitación de la voz de un jefe de estado. Dado el contenido del mensaje que se vuelve público, la verificación podría no llegar a tiempo. Pongamos que se trata de una declaración de guerra o un escándalo de corrupción, el daño potencial podría ser irreversible.
Recordemos que actualmente hay una gran variedad de herramientas que implementan funciones muy similares. Es por ello que por ejemplo en el mundo de la música hemos contemplado recientemente colaboraciones imposibles o incluso canciones de artistas fallecidos. El propio Meta lanzará muy pronto su Voicebox AI también con funciones de replicación de voz. Todavía es difícil determinar hasta dónde llegarán estas herramientas que, por el momento, no han ocasionado una grave crisis internacional. Mientras tanto, se ha vuelto una popular herramienta de entretenimiento y cada vez está más presente en la creación de contenido, en este caso recortando la necesidad de contratar un actor de doblaje o intérprete.
Podemos estar hablando de un precedente
Teniendo en cuenta que muchas otras herramientas de IA están generando gran controversia, la solución que ha ofrecido Eleven Labs podría ser la nueva norma. El equivalente con Chat GPT, sería si la propia plataforma es capaz de detectar el texto que ha creado (algo que todavía no funciona con una herramienta propia de Open AI). Lo mismo sucedería con la creación de imágenes o vídeos. Una detección más sencilla del contenido creado por IA podría ser un buen primer paso, pero si los desarrolladores se limitan a crear estas herramientas y “lavarse las manos”, el problema prevalece. En cualquiera de los casos de IA generativa, también hay maneras de eludir las herramientas de detección e incluso plataformas que lo facilitan. Lejos todavía de una legislación efectiva en este tema, la comunidad debería presionar para acciones más eficaces por parte de sus creadores.