Este es el anuncio que ha hecho Open AI sobre su chatbot, pero que a muchos les parece algo perturbador. Parece que la herramienta con IA no para de incorporar novedades según se prepara para volver muchos de sus servicios de pago. En esta ocasión, sus habilidades para conversar se van a llevar a otro nivel.
¿Cuál es la voz de Chat GPT?
Esta es la pregunta que muchos usuarios se hacen ante el anuncio de que el chatbot va a contar con chat por voz muy pronto. Ya estamos familiarizados con la voz de Siri o Alexa, y cada vez más con la de Bard. Pero Chat GPT tendrá la suya propia para poder comunicarse por voz, pero no solo eso, sino que también podrá escuchar comandos. Muchos usuarios llevan desde su lanzamiento expectantes de que Chat GPT incorpore la multimodalidad. Esto implica que la herramienta podrá escucharte para responder a lo que le pidas, también por voz. Pero también podrá ver las imágenes que le mandes y así realizar muchas funciones nuevas. Por ejemplo, al poder ver imágenes, puede ayudarte a identificar una especie de planta, a resolver un problema de matemáticas escrito en una pizarra o darte una receta con lo que tienes en la nevera. El usuario ahora puede tomar una imágen con su teléfono móvil y mandarla directamente al chatbot para que nos ofrezca su respuesta. Al parecer, las capacidades de respuesta se basan en el modelo GPT-3.5 y GPT-4.
Todas las funciones nuevas de voz convierten a Chat GPT en un equivalente de un asistente de voz. Lo que está claro es que la IA ha llegado de lleno a los asistentes de voz. Tan solo hace unos días vimos como Amazon introducía grandes novedades con IA para Alexa. En este caso, la herramienta de Open AI se basa en Whisper para su sistema de reconocimiento de sonido, que permite transcribir lo que digamos a texto y así ser procesado por el modelo de lenguaje como un prompt. También van a implementar un nuevo sistema para convertir el texto que produzca el chatbot a un discurso de voz similar al que podría producir un humano. Al parecer será posible escoger entre 5 tipos distintos de voz que han sido desarrolladas con la colaboración de varios dobladores profesionales. Como cabía esperar, estas funciones solo estarán disponibles para los usuarios de Chat GPT Plus y Chat GPT Enterprise. En las próximas dos semanas estarán disponibles para estos usuarios y para algunos desarrolladores también. Si tienes una cuenta de pago, solo tendrás que activar las conversaciones por voz en ajustes y subir imágenes mediante el icono que aparecerá en la conversación.
Chat GPT cada vez más potente
Por un lado, parece evidente que Open AI quiere monetizar su plataforma y convertir a nuevos usuarios a los servicios de pago. Para ello están implementando estas novedades solo para los usuarios con cuentas Premium o Enterprise. Pero también parece que tienen la intención de devorar el mercado y absorber la mayor cuota posible. No solo dominando dentro de los chatbots, sino también entre los generadores de imágenes e incluso los asistentes de voz. Parece un ambicioso objetivo ofrecer todas las funciones de IA generativa con una sola suscripción. Para los usuarios puede ser interesante no tener que gastarse una gran cantidad de dinero en distintas herramientas, pero para el mercado de la IA puede ser peligroso tener un monopolio de estas dimensiones. Por no hablar de las cuestiones que plantea en cuanto a protección de datos y privacidad. Al fin y al cabo, afirmar que Chat GPT ahora te puede ver y escuchar no resulta del todo tranquilizador.
Mientras la regulación parece ser incapaz de seguir el ritmo del progreso de las nuevas herramientas de IA, resulta sorprendente y aterrador a partes iguales lo rápido que está progresando esta tecnología. En el caso de Chat GPT, todavía no se ha cumplido un año de su llegada y ya es capaz de realizar cosas sorprendentes, tan solo con sus funciones de chat. Con su integración de voz e imágenes, es posible que se convierta en mucho más. Los asistentes de voz han tenido un progreso ciertamente lento y que se podría considerar estancado hasta la irrupción de la IA. Con el líder del mercado de la IA apostando por estos servicios, los demás van a tener que ponerse las pilas. En el caso de Apple por ejemplo, con Siri va a ser necesario perfeccionar su servicio de voz en gran medida para aguantar el ritmo. Pero Open AI puede que vaya aún más allá y se adentre hacia el Ambient Computing como nunca antes.