Un paso lógico en el desarrollo de la robótica y para lograr que sea más user-friendly es incorporar los avances de la IA. Integrando un modelo de lenguaje en cualquier robot, podrán actuar en tiempo real mediante prompts, realizando acciones en lugar de generar texto o imágenes. Pero ya se sabe que un gran poder…
Deep Mind RT-2
Una parte clave de la robótica ha sido encontrar la mejor manera de transmitir a las máquinas las órdenes de los humanos y así poder ejercer el control necesario. Con la llegada de la IA y los grandes modelos de lenguaje, esto podría realizarse mediante prompts como estamos acostumbrándonos con los chatbots. El equipo de Google Deep Mind propone utilizar un modelo de lenguaje para “traducir” los comandos y que de esta forma los robots puedan entenderlos y llevarlos a cabo. El funcionamiento no sería tan distinto de la generación de texto o imágenes, pero en este caso el robot usaría lo que percibe mediante sus sensores y cámaras. Ya hemos visto que por ejemplo con Chat GPT, las interacciones son fluidas y la mayoría de las veces son capaces de entender con precisión lo que se pide. En un futuro no tan lejano, estas conversaciones podrán dar lugar a que los robots desempeñen las tareas que se le piden.
El RT-2 se considera un modelo de visión-lenguaje-acción. Ya se está probando para entrenarlo con algunas acciones básicas. El reto consiste en crear un programa capaz de aprender de las acciones de la vida real, igual que los chatbots aprenden de inmensas bases de datos sobre conversaciones e imágenes reales. La intención es que el robot pueda tener eventualmente una base de datos con miles de acciones posibles y de esta forma poder replicarlas y adaptarlas a cada contexto. Para poder analizar los objetos y llevar a cabo las acciones pertinentes, establece unas coordenadas en el espacio. RT-2 aprovecha los avances realizados por otros modelos de visión de Google como PaLI-X y PaLM-E, además de incorporar los millones de parámetros de estos. Actualmente ya se está probando el RT-2 con sorprendentes resultados.
El robot que funciona con este modelo, tras ser entrenado previamente, puede desempeñar algunas acciones sencillas. Ya lo han puesto a prueba para levantar, mover, o tirar algunos objetos, solo usando prompts de texto e imágenes para lograrlo. Por ejemplo, han probado algunas prompts como: “levanta el objeto que es diferente a los demás”. En este caso, el robot entre una mesa llena de latas y una barra de chocolate, es capaz de levantar el chocolate. Pese a que puede parecer una tarea extremadamente sencilla, el RT-2 demuestra una capacidad de interactuar con su entorno impresionante. Potencialmente, puede extrapolar este conocimiento para desarrollar acciones mucho más complejas en el mundo real, que requieren razonamiento, comprensión de símbolos e incluso reconocimiento facial. Profundizando en el potencial de este sistema, enseguida comienzan los temores acerca del poder que tendrán las máquinas dentro de poco.
La robótica conlleva una gran responsabilidad
Integrando los avances de la IA al campo de la robótica, veremos cómo se va a llevar a cabo un progreso impetuoso. Por un lado, los modelos de lenguaje facilitarán que la tecnología sea más sencilla de utilizar para el público general. Esto es un salto esencial para que la robótica pueda dar el salto al mercado y crecer. Pero de la misma manera que sucede con los chatbots, es necesario limitar los prompts que se pueden pedir de las máquinas. Actualmente ya es un problema el uso de Chat GPT para llevar a cabo actividades delictivas y crear malware. Antes de permitir que los robots puedan realizar acciones peligrosas y potencialmente mortales, es más necesario que nunca establecer una legislación efectiva. La ficción nuevamente nos viene alertando sobre los peligros de esta tecnología desde hace tiempo, pero por alguna razón nos sigue pareciendo muy lejano todavía. Quizás hay que actuar mientras las máquinas están todavía aprendiendo a levantar botes de ketchup y mostaza.