CQT AI

AI视频生成正式告别"默剧"时代!谷歌Veo 3一键生成音画大片

CQTAI

CQTAI

7/7/2025

#AI video#Veo3#Gemini#Google
AI视频生成正式告别"默剧"时代!谷歌Veo 3一键生成音画大片

AI视频生成正式告别"默剧"时代!谷歌Veo 3震撼登场

行业变革

过去,Sora的发布曾推动AI视频质量实现质的飞跃,也让视频中的物理逻辑表现更加逼真,彻底点燃了这条赛道。Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks等初创公司,以及OpenAI、谷歌、阿里、字节等巨头纷纷涌入。

不过即便画质、镜头调度再如何进步,AI视频依旧存在"哑巴"的问题——你可以看到角色奔跑、跳跃,甚至上演慢镜头动作,但要让人物开口说话、听见环境声或锅里的滋滋声?对不起,依旧需要后期配音。

而且,音频后期常常对不上节奏,口型不准、对白不同步,音效踩不准点,最终总让成片缺点气氛。

Veo 3突破性功能

直到5月21日,谷歌正式推出Veo 3,AI视频终于能"说话"了!这款新模型不仅能生成高清画面,还能基于视频原始像素内容,自动合成对白、音效,与画面同步。

一个简单的提示词,立刻生成画面+对白+唇动同步+拟音音效,一气呵成。比如下面这段"我们能说话了!"的演绎👇

还能搞定复杂rap桥段,简单一句提示就能出片,比如"让一位老人谈论宇宙",从口型、节奏到表情全都自然衔接,真假难辨。

发布会上,DeepMind CEO 哈萨比斯激动宣布:"无声AI视频的时代终于结束了!用户只需用自然语言描述角色、场景、对白和语气,就能定制生成完整视频。"

从谷歌官方demo来看,Veo 3的音画结合能力已接近电影级制作水准,目前已在Gemini应用内对Google AI Ultra订阅用户开放,企业端用户也可在Vertex AI平台调用。

全球用户创意展示

发布会刚落幕,全球网友已玩疯——

Rap神曲、洗脑视频、烹饪节目轮番上演 网友脑洞大开,玩出了不少有趣作品👇

创意案例1: 👉 提示词(中译): 两个松饼在烘烤中对话,第一个松饼说:"我不敢相信Veo 3现在能让松饼说话!"第二个惊呼:"哇,一个会说话的松饼!"

结果,两个松饼不但对话表情丰富,连口型也神同步。

创意案例2: 还有复古1980年代电视烹饪节目,主持人是位65岁的英国老太太,一边揉面团一边说:"这活儿可费劲......"结果面团抬起脸、用布鲁克林口音回:"嘿女士,看着点,我正努力膨胀呢!" VHS老录像质感拉满。

创意案例3: 网友还玩出了未来主义俄罗斯Techno歌手洗脑神曲,连复杂的弹舌音效都能顺畅表现。

此外,谷歌首席创意技术专家也亲自测试Veo 3长视频生成能力,利用首尾帧控制功能,制作了一段超过1分钟的剧情短片。虽然背景音乐需自行添加,但对白与音效由Veo 3生成,完整度已极高。

技术对比:Veo 3 vs Sora

优劣一览👇

优势:

  • 音频生成:Veo 3能同步生成对白、音效,Sora目前还不能,省去大量后期时间。
  • 灵活编辑:Veo 3支持画面扩展、对象编辑,适合精细化调整,Sora更偏重故事串联。
  • 真实感:Veo 3在物理模拟与唇动同步表现上更贴近电影质感。

劣势:

  • 可用性:Veo 3现仅限美国Ultra订阅用户,Sora开放给更多ChatGPT用户,普及性更强。
  • 视频长度:Sora明确支持20秒视频,Veo 3长度尚无官方限制,待进一步验证。

使用指南

Veo 3上手教学 想自己试试?操作很简单👇

  1. 访问 Veo 3创作平台
  2. 注册并登录账户
  3. 选择"创造平台-视频"输入提示词,设定参数
  4. 点击"Generate Video",几秒钟就能看到成品