Ha pasado un poco por debajo del radar y todavía no ha recibido mucha atención de los medios en España pero esta nueva tecnología de IA que ha desarrollado Google es realmente espectacular. Se puede leer más acerca de esta tecnología en la publicación oficial.
Qué es Screen Ai de Google
ScreenAI de Google es un modelo de lenguaje visual (Vision-Language Model, VLM) diseñado para comprender completamente las interfaces de usuario (UI), las infografías y contenido en formato imagen en general. Este modelo representa un avance significativo hacia una solución integral que aborda la comprensión de material digital, especialmente en lo que respecta a la interacción con y entre infografías e interfaces de usuario.
A nivel técnico el gran avance de Screen Ai y una de las innovaciones es el desarrollo de una representación textual para las UIs, utilizada durante la etapa de preentrenamiento para enseñar al modelo cómo comprender las interfaces de usuario.
El modelo parece ser bastante bueno en tareas de preguntas y respuestas basadas en información en pantallas, superando a modelos más grandes con menos parámetros. Los benchmarks se pueden ver también en la publicación oficial.
Es decir, se trata de un modelo realmente eficiente. Se han publicado tres versiones, Screen Annotation, ScreenQA Short y Complex ScreenQA