Entre las muchas novedades que han presentado en el evento de Google I/O ayer, destaca el generador de videos con texto. Esta nueva herramienta se llama Veo y busca competir con Sora, la alternativa de Open AI que ya nos dejó con la boca abierta. Los generadores de video con IA todavía están a punto de dar el salto al público general, pero ya podemos intuir que van a ser revolucionarios
Google se suma a los generadores de videos con IA
Los generadores de imágenes por IA causaron furor en 2023, pero ahora las empresas están enfocándose en la siguiente frontera: la generación de videos por IA. Con OpenAI lanzando su generador de texto a video, Sora, en febrero de 2024, era solo cuestión de tiempo que Google hiciera lo mismo. El martes, en su conferencia anual para desarrolladores, Google presentó Veo, su generador de texto a video más avanzado, capaz de crear videos con resolución 1080p que duran más de un minuto. Además de la alta calidad de salida, Google afirma que Veo proporciona a los usuarios un «nivel de control creativo sin precedentes». La comprensión más profunda del lenguaje natural por parte de la IA permite a Veo ofrecer más detalles a partir de indicaciones más largas y entender términos cinematográficos como «timelapse» o «tomas aéreas».
Introducing Veo: our most capable generative video model. 🎥
— Google DeepMind (@GoogleDeepMind) May 14, 2024
It can create high-quality, 1080p clips that can go beyond 60 seconds.
From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO pic.twitter.com/6zEuYRAHpH
Adicionalmente, el generador de videos puede abordar un problema común en la generación de videos: la fluidez de las tomas. Según Google, Veo puede crear secuencias consistentes, con diferentes sujetos como personas, animales y objetos moviéndose de manera realista en las tomas. Google no es nuevo en la generación de videos. La compañía señaló que este modelo se basa en todos sus proyectos anteriores de generación de video, incluidos Imagen-Video, VideoPoet y Lumiere. Al igual que Sora de OpenAI, Veo de Google aún no está disponible para el público. En cambio, Google está compartiendo Veo primero con creadores seleccionados en una vista previa privada dentro de VideoFX. Sin embargo, Google invita a unirse a una lista de espera para eventualmente probar el modelo. A primera vista, con los videos que han compartido en el evento es difícil juzgar si es mejor que Sora. Tendremos que esperar a poder probarlo para hacer comparaciones prompt a prompt. Pero en cuanto sea posible lo tendrás en Marketing4all.
Very, very, very impressed by @Google I/O today.
— Andrew Gao (@itsandrewgao) May 14, 2024
Highlights:#Veo, AI video generator (1080p, more than a minute), working with @donaldglover (Childish Gambino)
Gemini 1.5 Pro (GPT4-level model) with 2 million tokens
Google Search now has an agent built in to do complex… pic.twitter.com/d1SsOyAiFR
Imagen 3: Google también busca competir con Dall-E
Además, Google presentó Imagen 3, su modelo de texto a imagen de mayor calidad hasta la fecha. Imagen 3, que cuenta con una mejor calidad de imagen y menos artefactos visuales, también está limitado a una vista previa privada dentro de ImageFX para creadores selectos y tiene su propia lista de espera. Las novedades que ha presentado Google nos hacen pensar que las herramientas para creadores son una parte muy importante del futuro de la compañía. Pero igual que con Bard, los de Google van a tenerlo difícil para competir con Open AI. La compañía de Sam Altman aprovechó el día anterior al evento de Google para anunciar sus propias novedades como GPT-4o. Desde luego, no es casualidad que ambas compañías están compitiendo por dominar el mercado de la IA.