El año pasado Yann LeCun, el director ejecutivo del programa de inteligencia artificial de Meta, propuso la nueva arquitectura que pretende superar las limitaciones actuales de los sistemas más avanzados. Su ambiciosa visión consiste en crear máquinas que puedan aprender desde sistemas internos sobre el funcionamiento del mundo real. De esta manera podrán aprender mucho más rápido, completar tareas complejas y adaptarse a situaciones nuevas con mayor facilidad. Cumpliendo esta premisa, nace I-JEPA (Image Joint Embedding Predictive Architecture).
La visión sobre la Inteligencia Artificial de Yann LeCun´s
El funcionamiento se basa en crear un modelo interno del mundo de manera artificial, y ahí las máquinas pueden aprender comparando imágenes abstractas en lugar de píxeles. Una analogía interesante para comprenderlo mejor sería imaginar a la IA aprendiendo dentro de la simulación de Matrix. Los resultados de I-JEPA por el momento indican un desempeño mucho más avanzado en tareas de visión, además de tener una eficiencia de computación mayor que los demás sistemas. Lo que aprende I-JEPA se puede trasladar a diversas aplicaciones sin necesidad de hacer fine-tuning (ajustes de adaptación). En las pruebas a las que Meta ha sometido a I-JEPA, los resultados indican que necesita entre 2 y 10 veces menos tiempo y obtiene resultados con menos errores que las principales alternativas. Meta presentará toda la información sobre I-JEPA en mucha más extensión la próxima semana durante la CVPR 2023 (Conference on Computer Vision and Pattern Recognition).
Un sistema basado en el sentido común
Uno de los pilares del trabajo detrás de I-JEPA, está basado en rasgos aparentemente básicos del aprendizaje humano. Por ejemplo, los humanos adquieren una cantidad descomunal de información acerca del funcionamiento del mundo que les rodea basándose simplemente en la observación. Lo que muchas veces denominamos sentido común proviene de estas observaciones y es una parte esencial para poder desarrollar comportamientos mucho más avanzados. La planificación, la comprensión de conceptos nuevos, la adaptación y muchísimas otras dotes del aprendizaje humano provienen de esas bases. Hasta el momento, para poder plasmar este conocimiento en las máquinas, se ha intentado codificarlo de manera digital de manera que los algoritmos puedan consultarlo cuando sea necesario. Sin embargo, para ser mucho más efectivo el proceso de aprendizaje, las máquinas deben aprenderlo de manera auto-supervisada. Es decir, observando y recorriendo “la matriz” pueden aprender de manera mucho más eficiente el contexto y significado de las imágenes y de los sonidos. De esta manera I-JEPA podría volver obsoleto el tedioso sistema de aprendizaje mediante una extensa base de datos de codificación manual.
El nuevo sistema vs el actual
En líneas generales, lograr que las máquinas puedan aprender de representaciones abstractas basadas en el mundo en el que vivimos es un paso muy importante. Este sistema de aprendizaje se puede aplicar también a los modelos de inteligencia artificial generativa y de lenguaje. Actualmente, estos sistemas funcionan mediante la predicción de información tomando la que tienen a su alcance.
Un ejemplo sencillo para comprender este funcionamiento es la creación de imágenes. Actualmente, en el caso de crear una imagen de una mano, la inteligencia artificial se basa en la información que tiene en su base de datos sobre esto y va generando el contenido gradualmente completando la información que falta. Esto da lugar a un error muy habitual que es un número incoherente de dedos en las manos creadas por inteligencia artificial. Con el nuevo sistema de I-JEPA, la máquina sabría desde el punto de partida que los humanos tienen cinco dedos en cada mano y crearía la imagen partiendo de esta información.
En el largo plazo, con este método que inaugura I-JEPA, las máquinas podrán aprender mucho más rápido y adaptarse mejor a las circunstancias impredecibles que abundan en el mundo real. Si se crean modelos internos (o “matrices”) más complejas, los sistemas podrán incluso predecir acontecimientos y crear videos en base a un determinado contexto sobre lo que va a suceder. Las aplicaciones posibles de semejantes habilidades tendremos que consultarlas todavía en la ciencia ficción, pero no por mucho tiempo.