Si has estado considerando pasarte a una suscripción de ChatGPT Plus, este puede ser el momento adecuado. En el evento de lanzamiento de primavera de OpenAI en mayo, uno de los aspectos más destacados fue la demostración del nuevo Modo de Voz en ChatGPT-4o. El muy esperado nuevo Modo de Voz finalmente está aquí (más o menos).
OpenAI lanza en alfa el nuevo Modo de Voz avanzado para usuarios de ChatGPT Plus
El martes, OpenAI anunció a través de un post en X que la startup estaba lanzando el Modo de Voz en fase alfa a un pequeño grupo de usuarios de ChatGPT Plus. Este modo ofrece un asistente de voz más inteligente que puede ser interrumpido y responder a las emociones de los usuarios. Es decir, alcanzando un nivel mucho más alto de realismo que nada de lo que hayamos visto hasta ahora. «Estamos comenzando a implementar el Modo de Voz avanzado para un pequeño grupo de usuarios de ChatGPT Plus. El Modo de Voz avanzado ofrece conversaciones más naturales en tiempo real, permite interrupciones en cualquier momento y detecta y responde a tus emociones».
We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK
— OpenAI (@OpenAI) July 30, 2024
Si participas en la fase alfa, recibirás un correo electrónico con instrucciones y un mensaje en la aplicación móvil, como se muestra en el video anterior. Si aún no has recibido una notificación, no te preocupes. OpenAI compartió que seguirá añadiendo usuarios de manera continua, con el plan de que todos los suscriptores de ChatGPT Plus tengan acceso en otoño. En la demostración original del evento de lanzamiento, que se muestra a continuación, la empresa mostró las capacidades multimodales del Modo de Voz, incluyendo la asistencia con el contenido en las pantallas de los usuarios y el uso de la cámara del teléfono como contexto para una respuesta.
¿Cómo será la voz de ChatGPT?
Desafortunadamente, la fase alfa del Modo de Voz no tendrá todas las características que se ven en el anuncio. OpenAI compartió que «las capacidades de video y compartir pantalla se lanzarán en una fecha posterior». La startup también mencionó que desde la demostración original de la tecnología, ha mejorado la calidad y seguridad de las conversaciones por voz. OpenAI probó las capacidades de voz con más de 100 evaluadores externos en 45 idiomas, según el hilo en X. La startup también entrenó el modelo para hablar solo en las cuatro voces preestablecidas, bloquear salidas que se desvíen de esas voces designadas e implementar medidas de seguridad para bloquear solicitudes inapropiadas. Sin olvidar la polémica que vivió la empresa de Sam Altman con la voz de Scarlett Johansson.
La startup también dijo que tomará en cuenta los comentarios de los usuarios para mejorar aún más el modelo y compartirá un informe detallado sobre el rendimiento de GPT-4o, incluyendo sus limitaciones y evaluaciones de seguridad, en agosto. Puedes convertirte en suscriptor de ChatGPT Plus por $20 al mes. Otros beneficios de la membresía incluyen funciones avanzadas de análisis de datos, generación de imágenes y acceso prioritario a GPT-4o. Una semana después de que OpenAI presentara esta función, Google reveló una característica similar llamada Gemini Live, que aún no está disponible para los usuarios. Eso podría cambiar pronto en el evento Made by Google que se llevará a cabo en unas pocas semanas. Está claro que la carrera ahora por la IA se centra en la asistencia de voz. Incluso con alternativas tan curiosas como los amigos virtuales del dispositivo Friend.