Un duro golpe para Open AI, esto es lo que representa el modelo Moshi que se acaba de presentar a cargo de la empresa Kyutai Labs. Se trata de una beta, pero es muy prometedor.
Os contamos más en este post.
Moshi AI, un LLM capaz de hablar y escuchar
Moshi es un modelo básico multimodal nativo que habla y escucha con baja latencia, entiende y expresa emociones, y que usa un LLM de 7B de parámetros llamado Helium.
En los vídeos que hemos visto de su presentación lo que hemos presenciado es tremendo.
Duro golpe para @OpenAI , mientras ellos atrasan el modo avanzado de voz @kyutai_labs acaba de lanzar Moshi, un modelo básico multimodal nativo en tiempo real que puede escuchar y hablar, crear sonidos, imitar emociones,... similar a lo que OpenAI demostró con GPT-4o en mayo. 👀… pic.twitter.com/R2ptkMsLNa
— El IAS - Esteban Diba (@estebandiba) July 3, 2024
Lo que se ve en el video es tremendo. Este modelo «piensa» y puede escuchar y hablar a la vez.
Al ser un modelo nativo puede funcionar en un ordenador portátil y lo mejor de todo es que es de código abierto.
El modelo está pensado para comprender y expresar emociones. Puede hablar distintos idiomas con varios acentos . Podéis ver el vídeo entero de la presentación aquí:
Cómo probar el modelo Moshi AI gratis
En este enlace te puedes dar de alta en la lista de espera para acceder a su prueba.
El equipo y la propioa Kyutai son una empresa relativamente pequeña. Es por ello que este lanzamiento ejemplifica el potencial de pequeñas organizaciones para lanzar herramientas con IA.
Las características del modelo Moshi AI
- El modelo opera con un sistema I/O de dos canales generando tokens y codecs de audio.
- Su LLM es Helium 7B, que se ha creado «desde cero» y es capaz de captar información semántica y acústica. Esto es, puede «escuchar»
- Su fine-tunning incluye más de 100.000 estilos conversacionales .
- Al tratarse de un modelo de código abierto todo el stack optimizado será publicado en algún momento según la propia empresa. Las siguientes versiones irán mejorando el original gracias al feedback de los usuarios.
Las primeras reacciones a Moshi AI
Algunos usuarios en X ya están probando la herramienta Moshi Ai y sus reacciones son bastante buenas.
Por ejemplo este usuario destaca su rapidez.
Man it's weird talking to an AI that's as fast as the gpt4o demo with the mayor difference that this demo called Moshi from @kyutai_labs is available right now! capabilities seem very limited for now but the latency is mind blowing! pic.twitter.com/tgoKCpXg5z
— Tommy Falkowski (@TommyFalkowski) July 3, 2024
Eso si, también destaca que sus capacidades son muy limitadas.
Podéis encontrar toda la información oficial en este pdf oficial.