El equipo de investigación de ingenieros de Apple centrado en IA ha publicado información sobre un nuevo modelo de IA llamado ReALM que entre otras funcionalidades puede ver y comprender información en forma de imágenes y que parece estar desbancando ya a ChatGPT 4 en varias tareas.
Siendo estrictos, más que un LLM al uso se trata
¿Qué es Apple ReALM?
ReALM significa Reference Resolution As Language Modeling según el paper oficial que se ha publicado recientemente.
Se trata de un sistema de Inteligencia Artificial multimodal capaz de comprender imágenes que le proporcionemos además de entender contexto conversacional.
Pero, ¿qué lo hace tan especial?
- Se trata de un modelo más eficiente a la hora de convertir imagen en texto.
- Se trata de un modelo que probado de forma nativa dentro de los dispositivos.
- Con menos parámetros es capaz de obtener mejores resultados que GPT4 en tareas similares.
- Parece una tecnología capaz de provocar un salto tecnológico gigante en los asistentes de voz como Siri. con
Uno de los ejemplos que se ha usado, de hecho, es un caso de uso con Siri en el cual con la instrucción de «llama a la empresa» por voz Siri es capaz de navegar la web y buscar el teléfono de contacto.
Apple AI researchers boast useful on-device model that ‘substantially outperforms’ GPT-4 https://t.co/KmNsv0IlTt by @apollozac
— 9to5Mac (@9to5mac) April 1, 2024
Un paso hacia el futuro de la IA. La inteligencia artificial on-device
La relevancia y potencial de ReALM radica en que se podría integrar en otras tecnologías como la robótica o incluso productos como las Vision Pro de Apple consiguiendo mejorar la comunicación entre los seres humanos y las máquinas.
Y es que el gran reto del actual estado de la IA es conseguir que estos modelos de lenguaje se ejecuten fuera del cloud , dentro del dispositivo.
¿Por qué es tan difícil esta integración? Veamos algunas de las principales razones:
- Los smartphones, por lo general, tienen una capacidad de procesamiento muy limitada.
Los modelos más completos de IA necesitan gran cantidad de recursos computacionales. De ahí la importancia de las famosas tarjetas gráficas de Nvidia y su poder dentro de la industria. - Consumo energético. Los recursos de procesamiento de la IA necesitan grandes cantidades de energía. Las baterías de los móviles a día de hoy no serían capaces de aguantar semejante nivel de energía.
- Almacenamiento. Los modelos tipo Claude o ChatGPT aún en sus formas más simples requieren grandes cantidades de memoria y almacenamiento.
De hecho, la memoria RAM es uno de los grande problemas puesto que un LLM necesita tanta que dejaría prácticamente sin RAM al resto de aplicaciones de un teléfono móvil convencional. - Regulación , ética y privacidad. Llevar la IA dentro de un teléfono móvil implica una serie de desafíos éticos que hacen muy complicado su encaje en sistemas regulatorios como el de la UE.