Google lance Veo 3.1 pour concurrencer Sora 2 avec des vidéos IA sonorisées
La guerre des intelligences artificielles atteint un sommet. À chaque annonce, un nouveau modèle surgit, plus audacieux, plus immersif, plus… cher. Dans cette bataille d’innovations, Google n’a pas voulu rester spectateur. En sortant Veo 3.1, il dévoile une IA vidéo armée de sons, de dialogues, et de nouvelles capacités d’édition. Face à la popularité virale de Sora 2, la firme de Mountain View joue une autre carte : celle de la précision narrative et du contrôle créatif.
En bref
- Veo 3.1 intègre audio, dialogues et bruitages pour enrichir les scènes générées par l’IA.
- L’outil cible les créateurs sérieux, avec des options de montage et formats professionnels.
- Trois modules clés : composition d’images, transitions créatives et extension fluide de clips.
- L’IA de Google valorise la cohérence visuelle, au détriment parfois de la vitesse d’action.
Duel technologique : Google s’attaque aux reines de la vidéo IA
Quand OpenAI, valorisé à 500 milliards de $ sans IPO, a lancé Sora 2 le 30 septembre, le succès fut immédiat. L’application a été téléchargée plus d’un million de fois en seulement cinq jours, grimpant au sommet de l’App Store. Son approche ? Une interface « TikTokisée », taillée pour le partage et le remix.
Google n’a pas choisi cette voie. Avec Veo 3.1, l’objectif est clair : s’adresser aux créateurs, pas aux influenceurs. Le modèle permet de générer des vidéos avec résolution 1080p, en format horizontal ou vertical, intégrant ambiance sonore, voix synchronisées et effets réalistes. Accessible via Flow, Vertex AI et Gemini API, il propose deux formules : une version rapide à 0,15 $/seconde, et une standard à 0,40 $/seconde.
La firme insiste sur les capacités audio, désormais présentes dans tous les modules. Elle promet un rendu inédit : la synchronisation labiale de Veo 3.1 dépasse celle de tous les autres modèles.
Là où Sora privilégie le dynamisme visuel, Veo fait le choix de la cohérence. Les mouvements sont plus lents, mais les éléments restent stables. C’est le prix de la précision. Un positionnement qui tranche avec les ambitions de Meta ou Luma Labs, qui misent davantage sur la vitesse et l’effet waouh.
Des histoires qui parlent : l’IA de Google veut raconter
L’un des paris majeurs de Veo 3.1, c’est l’immersion narrative. L’ajout du son permet à Google de franchir un cap : ne plus seulement illustrer, mais raconter avec des images et des voix. Trois fonctionnalités se détachent :
- Ingredients to Video : vous combinez plusieurs images de référence, et l’IA génère une scène avec objets et personnages ;
- Frames to Video : vous donnez une image de départ et une de fin, et l’IA produit une transition cohérente ;
- Extend : l’IA prolonge un clip en générant la suite à partir de la dernière seconde.
L’outil permet aussi d’ajouter ou de supprimer des éléments, en tenant compte des ombres et lumières. Ce niveau de détail fait la force de l’approche : un studio cinématographique dans une interface d’intelligence artificielle.
Mais tout n’est pas parfait. Lorsque les instructions s’éloignent trop de la logique visuelle, l’IA déraille. Certaines scènes sautent d’un plan à l’autre, perdent les personnages ou changent complètement d’ambiance. Cela reste une technologie en construction.
Comme l’expliquait Google dans son blog officiel :
Nous présentons également Veo 3.1, qui apporte un son plus riche, un meilleur contrôle narratif et un réalisme accru capturant des textures proches de la réalité.
Veo 3.1 ne veut pas divertir : il veut émouvoir. Et c’est sans doute là qu’il diffère radicalement de ses concurrents.
UX exigeante, résultat bluffant : quand l’intelligence artificielle devient outil de création
L’expérience utilisateur offerte par Veo 3.1 n’est pas celle d’un réseau social. Ce n’est pas un produit à consommer, mais un outil à maîtriser. Les créateurs doivent apprendre à parler le langage de l’IA. Un prompt mal rédigé ou trop éloigné des images de référence peut produire un résultat incohérent.
Certaines astuces circulent déjà parmi les utilisateurs. Par exemple, passer par Seedream pour générer une image initiale fidèle, avant de l’importer dans Veo. Ou bien utiliser une construction audio-aware, en mentionnant explicitement les sons souhaités dans les prompts.
À ce titre, voici quelques faits concrets :
- Veo a généré plus de 275 millions de vidéos depuis le lancement de Flow ;
- Trois modules créatifs sont disponibles : Ingredients, Frames, Extend ;
- Le coût d’usage est jusqu’à 2 fois moins élevé que celui de Sora 2 Pro ;
- Les vidéos peuvent durer jusqu’à une minute, avec son intégré ;
- Seuls trois modèles gèrent des voix parlées : Sora, Grok, et désormais Veo.
L’outil ne se laisse pas apprivoiser facilement. Mais une fois compris, il délivre des vidéos d’un réalisme rare, avec des intonations justes et des personnages crédibles. Il faut juste de la patience, du doigté… et quelques crédits.
Google ne cache plus son ambition de dominer l’IA générative. Veo 3.1 montre que la firme ne veut pas simplement suivre. Elle veut imposer son tempo. Et comme pour confirmer cette soif de prouesse, l’un de ses robots vient tout juste de résoudre un problème mathématique réputé impossible. Le message est clair : le géant de l’IA ne fait que commencer à parler.
Maximisez votre expérience Cointribune avec notre programme 'Read to Earn' ! Pour chaque article que vous lisez, gagnez des points et accédez à des récompenses exclusives. Inscrivez-vous dès maintenant et commencez à cumuler des avantages.
La révolution blockchain et crypto est en marche ! Et le jour où les impacts se feront ressentir sur l’économie la plus vulnérable de ce Monde, contre toute espérance, je dirai que j’y étais pour quelque chose
Les propos et opinions exprimés dans cet article n'engagent que leur auteur, et ne doivent pas être considérés comme des conseils en investissement. Effectuez vos propres recherches avant toute décision d'investissement.