Google lança Veo 3.1 para concorrer com Sora 2 com vídeos IA sonorizados
A guerra das inteligências artificiais atinge um auge. A cada anúncio, surge um novo modelo, mais audacioso, mais imersivo, mais… caro. Nesta batalha de inovações, a Google não quis ficar como espectadora. Ao lançar Veo 3.1, ela revela uma IA de vídeo equipada com sons, diálogos e novas capacidades de edição. Diante da popularidade viral do Sora 2, a empresa de Mountain View joga outra carta: a da precisão narrativa e do controle criativo.
Em resumo
- Veo 3.1 integra áudio, diálogos e efeitos sonoros para enriquecer as cenas geradas pela IA.
- A ferramenta é voltada para criadores sérios, com opções de montagem e formatos profissionais.
- Três módulos principais: composição de imagens, transições criativas e extensão fluida de clipes.
- A IA da Google valoriza a coerência visual, às vezes em detrimento da velocidade da ação.
Duelo tecnológico: Google ataca as rainhas do vídeo IA
Quando a OpenAI, avaliada em 500 bilhões de $ sem IPO, lançou Sora 2 em 30 de setembro, o sucesso foi imediato. O aplicativo foi baixado mais de um milhão de vezes em apenas cinco dias, alcançando o topo da App Store. Sua abordagem? Uma interface “TikTokizada”, feita para compartilhamento e remixagem.
A Google não escolheu esse caminho. Com Veo 3.1, o objetivo é claro: dirigir-se aos criadores, não aos influenciadores. O modelo permite gerar vídeos em resolução 1080p, nos formatos horizontal ou vertical, incorporando ambiente sonoro, vozes sincronizadas e efeitos realistas. Acessível via Flow, Vertex AI e Gemini API, ele oferece duas fórmulas: uma versão rápida a 0,15 $/segundo, e uma padrão a 0,40 $/segundo.
A empresa insiste nas capacidades de áudio, agora presentes em todos os módulos. Promete um resultado inédito: a sincronização labial do Veo 3.1 supera a de todos os outros modelos.
Onde o Sora privilegia o dinamismo visual, o Veo escolhe a coerência. Os movimentos são mais lentos, mas os elementos permanecem estáveis. É o preço da precisão. Um posicionamento que contrasta com as ambições da Meta ou da Luma Labs, que apostam mais na velocidade e no efeito “uau”.
Histórias que falam: a IA do Google quer contar
Um dos grandes desafios do Veo 3.1 é a imersão narrativa. A adição do som permite à Google avançar um degrau: não apenas ilustrar, mas contar com imagens e vozes. Três funcionalidades se destacam:
- Ingredientes para Vídeo: você combina várias imagens de referência, e a IA gera uma cena com objetos e personagens;
- Quadros para Vídeo: você dá uma imagem inicial e uma final, e a IA produz uma transição coerente;
- Estender: a IA prolonga um clipe gerando a sequência a partir do último segundo.
A ferramenta também permite adicionar ou remover elementos, considerando sombras e luzes. Esse nível de detalhe é a força da abordagem: um estúdio cinematográfico em uma interface de inteligência artificial.
Mas nem tudo é perfeito. Quando as instruções se afastam demais da lógica visual, a IA perde o rumo. Algumas cenas pulam de um plano para outro, perdem personagens ou mudam completamente de ambiente. Ainda é uma tecnologia em construção.
Como explicou a Google em seu blog oficial:
Também apresentamos Veo 3.1, que traz um som mais rico, melhor controle narrativo e realismo aumentado capturando texturas próximas da realidade.
Veo 3.1 não quer entreter: quer emocionar. E é possivelmente aí que ele difere radicalmente dos concorrentes.
UX exigente, resultado impressionante: quando a inteligência artificial vira ferramenta de criação
A experiência do usuário oferecida pelo Veo 3.1 não é a de uma rede social. Não é um produto para consumir, mas uma ferramenta para dominar. Os criadores precisam aprender a falar a linguagem da IA. Um prompt mal redigido ou muito distante das imagens de referência pode produzir um resultado incoerente.
Alguns truques já circulam entre os usuários. Por exemplo, usar o Seedream para gerar uma imagem inicial fiel, antes de importá-la para o Veo. Ou usar uma construção consciente de áudio, mencionando explicitamente os sons desejados nos prompts.
Nesse sentido, aqui estão alguns fatos concretos:
- Veo gerou mais de 275 milhões de vídeos desde o lançamento do Flow;
- Três módulos criativos estão disponíveis: Ingredientes, Quadros, Estender;
- O custo de uso é até 2 vezes menor que o do Sora 2 Pro;
- Os vídeos podem durar até um minuto, com som integrado;
- Apenas três modelos gerenciam vozes faladas: Sora, Grok e agora Veo.
A ferramenta não é fácil de dominar. Mas uma vez entendida, entrega vídeos com realismo raro, com entonações corretas e personagens críveis. Só é preciso paciência, habilidade… e alguns créditos.
A Google não esconde mais sua ambição de dominar a IA generativa. Veo 3.1 mostra que a empresa não quer apenas seguir. Ela quer impor seu ritmo. E para confirmar essa sede de excelência, um de seus robôs acabou de resolver um problema matemático tido como impossível. A mensagem é clara: o gigante da IA está apenas começando a falar.
Maximize sua experiência na Cointribune com nosso programa "Read to Earn"! Para cada artigo que você lê, ganhe pontos e acesse recompensas exclusivas. Inscreva-se agora e comece a acumular vantagens.
La révolution blockchain et crypto est en marche ! Et le jour où les impacts se feront ressentir sur l’économie la plus vulnérable de ce Monde, contre toute espérance, je dirai que j’y étais pour quelque chose
As opiniões e declarações expressas neste artigo são de responsabilidade exclusiva do autor e não devem ser consideradas como recomendações de investimento. Faça sua própria pesquisa antes de tomar qualquer decisão de investimento.