A medio camino entre el arte y la inteligencia artificial (IA), ha surgido una nueva metodología que promete revolucionar la manera en que se describen las imágenes.
Este avance tiene el potencial de mejorar significativamente la exactitud de los modelos de imágenes, lo cual es crucial para la evolución de las actuales capacidades de los chatbots tipo ChatGPT.
Qué es ImageInWords de Google
ImageInWords (IIW) es sistema innovador desarrollado por un equipo de investigación de Google que combina las capacidades de la IA con el toque humano para generar descripciones de imágenes más detalladas y precisas.
Su gitbhub oficial está aquí en este enlace.
El problema de los modelos actuales de IA con las imágenes
Los sistemas actuales de procesamiento de imágenes por IA se entrenan a menudo con enormes cantidades de datos obtenidos de internet. Sin embargo, estos datos son frecuentemente inexactos y utilizan textos alternativos simples en lugar de descripciones significativas, lo que limita las capacidades de estos sistemas. Además, los intentos previos de crear descripciones de alta calidad, ya sea mediante humanos o modelos de IA, han mostrado debilidades, como sesgos subjetivos o alucinaciones.
ImageInWords reconoce primero los objetos individuales en una imagen y luego una IA genera descripciones iniciales para cada objeto. Estas descripciones sirven como punto de partida para que los humanos las refinen y expandan, asegurando que sean tanto completas como precisas. Este enfoque combinado aprovecha lo mejor de ambos mundos: la eficiencia de la IA y la precisión del toque humano.
El impacto de ImageInWords en la Inteligencia Artifiicial y el marketing
Esta nueva tecnología puede hacer que superemos por fin la dependencia de los textos alt de las imágenes para que determinados sistemas tecnológicos comprendan qué hay dentro de una imagen.
Si pensamos por ejemplo en el SEO, podría servir para mejorar el bot de Google de rastreo para que finalmente pueda comprender una imagen.
O piensa también en cómo podría mejorar la comprensión de las imágenes de los productos de un ecommerce.
Aunque se trata de un experimento, por ahora, podría formar parte de las tecnologías de Google si finalmente se integra en el ecosistema de sus herramientas.