Google lanza Veo 3.1 para competir con Sora 2 con videos IA sonorizados
La guerra de las inteligencias artificiales alcanza un punto álgido. Con cada anuncio, surge un nuevo modelo, más audaz, más inmersivo, más… caro. En esta batalla de innovaciones, Google no quiso quedarse como espectador. Al lanzar Veo 3.1, presenta una IA de video armada con sonidos, diálogos y nuevas capacidades de edición. Frente a la popularidad viral de Sora 2, la empresa de Mountain View juega otra carta: la de la precisión narrativa y el control creativo.
En resumen
- Veo 3.1 integra audio, diálogos y efectos de sonido para enriquecer las escenas generadas por la IA.
- La herramienta se dirige a creadores serios, con opciones de montaje y formatos profesionales.
- Tres módulos clave: composición de imágenes, transiciones creativas y extensión fluida de clips.
- La IA de Google prioriza la coherencia visual, a veces a costa de la velocidad de acción.
Duelo tecnológico: Google ataca a las reinas del video IA
Cuando OpenAI, valorada en 500 mil millones de $ sin IPO, lanzó Sora 2 el 30 de septiembre, el éxito fue inmediato. La aplicación fue descargada más de un millón de veces en solo cinco días, escalando a la cima de la App Store. ¿Su enfoque? Una interfaz «TikTokizada», diseñada para compartir y remezclar.
Google no eligió ese camino. Con Veo 3.1, el objetivo es claro: dirigirse a los creadores, no a los influencers. El modelo permite generar videos con resolución 1080p, en formato horizontal o vertical, integrando ambiente sonoro, voces sincronizadas y efectos realistas. Accesible vía Flow, Vertex AI y Gemini API, ofrece dos modalidades: una versión rápida a 0,15 $/segundo y una estándar a 0,40 $/segundo.
La firma insiste en las capacidades de audio, ahora presentes en todos los módulos. Promete un rendimiento sin precedentes: la sincronización labial de Veo 3.1 supera a la de todos los demás modelos.
Donde Sora prioriza el dinamismo visual, Veo opta por la coherencia. Los movimientos son más lentos, pero los elementos permanecen estables. Ese es el precio de la precisión. Un posicionamiento que contrasta con las ambiciones de Meta o Luma Labs, que apuestan más por la velocidad y el efecto wow.
Historias que hablan: la IA de Google quiere contar
Una de las principales apuestas de Veo 3.1 es la inmersión narrativa. La incorporación del sonido permite a Google dar un paso adelante: no solo ilustrar, sino contar con imágenes y voces. Tres funcionalidades destacan:
- Ingredientes para Video: combinas varias imágenes de referencia, y la IA genera una escena con objetos y personajes;
- Cuadros para Video: das una imagen inicial y una final, y la IA produce una transición coherente;
- Extender: la IA alarga un clip generando la continuación a partir del último segundo.
La herramienta también permite añadir o eliminar elementos, considerando sombras y luces. Este nivel de detalle es la fuerza del enfoque: un estudio cinematográfico en una interfaz de inteligencia artificial.
Pero no todo es perfecto. Cuando las instrucciones se alejan demasiado de la lógica visual, la IA falla. Algunas escenas saltan de un plano a otro, pierden personajes o cambian completamente de ambiente. Sigue siendo una tecnología en desarrollo.
Como explicaba Google en su blog oficial:
También presentamos Veo 3.1, que aporta un sonido más rico, mejor control narrativo y un realismo aumentado capturando texturas cercanas a la realidad.
Veo 3.1 no quiere entretener: quiere emocionar. Y es probablemente ahí donde se diferencia radicalmente de sus competidores.
UX exigente, resultado impresionante: cuando la inteligencia artificial se convierte en herramienta creativa
La experiencia de usuario que ofrece Veo 3.1 no es la de una red social. No es un producto para consumir, sino una herramienta para dominar. Los creadores deben aprender a hablar el lenguaje de la IA. Un prompt mal redactado o demasiado alejado de las imágenes de referencia puede producir un resultado incoherente.
Algunos trucos ya circulan entre los usuarios. Por ejemplo, usar Seedream para generar una imagen inicial fiel, antes de importarla a Veo. O utilizar una construcción consciente del audio, mencionando explícitamente los sonidos deseados en los prompts.
En este sentido, aquí algunos hechos concretos:
- Veo ha generado más de 275 millones de videos desde el lanzamiento de Flow;
- Tres módulos creativos están disponibles: Ingredientes, Cuadros, Extender;
- El costo de uso es hasta 2 veces menor que el de Sora 2 Pro;
- Los videos pueden durar hasta un minuto, con sonido integrado;
- Sólo tres modelos manejan voces habladas: Sora, Grok, y ahora Veo.
La herramienta no se deja dominar fácilmente. Pero una vez comprendida, entrega videos de un realismo raro, con entonaciones justas y personajes creíbles. Solo se necesita paciencia, destreza… y algunos créditos.
Google ya no oculta su ambición de dominar la IA generativa. Veo 3.1 muestra que la empresa no quiere simplemente seguir. Quiere imponer su ritmo. Y para confirmar esta sed de excelencia, uno de sus robots acaba de resolver un problema matemático considerado imposible. El mensaje es claro: el gigante de la IA apenas comienza a hablar.
¡Maximiza tu experiencia en Cointribune con nuestro programa "Read to Earn"! Por cada artículo que leas, gana puntos y accede a recompensas exclusivas. Regístrate ahora y comienza a acumular beneficios.
¡La revolución blockchain y cripto está en marcha! Y el día en que los impactos se sientan en la economía más vulnerable del mundo, contra toda esperanza, diré que fui parte de ella
Las ideas y opiniones expresadas en este artículo pertenecen al autor y no deben tomarse como consejo de inversión. Haz tu propia investigación antes de tomar cualquier decisión de inversión.