La empresa Stability AI ha anunciado hoy un nuevo modelo de IA generativa para imágenes a raíz de texto. Aseguran que es el modelo más avanzado hasta la fecha, con muchas funciones nuevas y mejoradas. La competencia en el sector sigue creciendo…
Novedades de Stable Diffusion XL 1.0
La nueva herramienta de Stability AI, está disponible en código abierto a través de GitHub, el API de Stability y apps de consumidores como ClipDrop y DreamStudio. La nueva versión ofrece colores más precisos, sombras más profundas, un contraste más realista y una mejor iluminación frente a su predecesor. Desde Stability aseguran que la herramienta contiene 3.5 millones de parámetros y es capaz de crear imágenes completas con 1 megapixel de resolución en cuestión de segundos. Los parámetros son la parte del modelo creada a través de entrenarse con extensas bases de datos, y son un factor que determina su capacidad para resolver problemas. En este caso, se emplean para generar imágenes realistas a través de un prompt de texto. El anterior modelo de Stable Diffusion XL, también era capaz de generar imágenes con una alta resolución, pero requería un esfuerzo de computación mayor.
Más allá de cuadruplicar la resolución de las imágenes, la nueva versión es customizable, capaz de hacer infinidad de pequeños ajustes en cuanto a conceptos y estilos distintos. Desde Stability aseguran que ha mejorado también la sencillez de la plataforma, siendo mucho más fácil crear diseños complejos con los prompts de texto. Quizás uno de los aspectos de innovación más relevantes, es que Stable Diffusion XL 1.0 ha mejorado en gran medida con la generación de texto dentro de las imágenes. Muchos de los modelos de generación de imágenes, son incapaces de crear imágenes con logos, eslóganes, o caligrafías legibles. Desde Stability, se enorgullecen de la capacidad de su nuevo modelo para generar imágenes con texto avanzado.
Otra función en la que destaca frente a los demás modelos, es que Stable Diffusion XL 1.0 permite el “inpainting” (reconstruir las partes que faltan de una imágen) y el “outpainting” (extender las imágenes ya existentes). Esto es posible a través de los prompts de imágenes. Es decir, es posible generar nuevas imágenes a través de imágenes ya existentes, combinando prompts de texto con prompts de imágenes. De esta forma sería posible mejorar la calidad de la imágen, añadir objetos o personas, o transformarla a un estilo nuevo. Por otra parte, el modelo es capaz de entender instrucciones más complejas, con varias partes y con prompts más cortos. Los Stable Diffusion de la anterior generación necesitaban prompts más extensos para comprender lo que el usuario estaba buscando.
La generación de imágenes con IA evoluciona rápidamente
Otros modelos como Dall-E o Midjourney, popularizados en los últimos meses, ya son capaces de realizar imágenes sorprendentes. Recordemos que la IA ha sido incluso capaz de ganar un premio de fotografía. Pero el progreso de estos sistemas sigue avanzando a un ritmo sorprendente. Además, en este caso Stability AI ha optado también por el código abierto, impulsando el desarrollo de nuevas herramientas que puedan crear los propios usuarios. Esto también alimenta el debate sobre los riesgos que supone esta tecnología y la creciente necesidad de limitaciones. Ahora mismo, el código abierto de Stable Diffusion XL 1.0 podría permitir usos perjudiciales como la creación de deep fakes sin autorización. Desde Stability AI afirman que han tomado acciones para regular la creación de este tipo de contenido, filtrando las imágenes peligrosas de la base de datos y bloqueando los prompts perniciosos. En cuanto a la base de datos, también hay casos de artistas protestando por el uso de su contenido con copyright.