AI视频生成正式告别"默剧"时代！谷歌Veo 3震撼登场

行业变革

过去，Sora的发布曾推动AI视频质量实现质的飞跃，也让视频中的物理逻辑表现更加逼真，彻底点燃了这条赛道。Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks等初创公司，以及OpenAI、谷歌、阿里、字节等巨头纷纷涌入。

不过即便画质、镜头调度再如何进步，AI视频依旧存在"哑巴"的问题——你可以看到角色奔跑、跳跃，甚至上演慢镜头动作，但要让人物开口说话、听见环境声或锅里的滋滋声？对不起，依旧需要后期配音。

而且，音频后期常常对不上节奏，口型不准、对白不同步，音效踩不准点，最终总让成片缺点气氛。

直到5月21日，谷歌正式推出Veo 3，AI视频终于能"说话"了！这款新模型不仅能生成高清画面，还能基于视频原始像素内容，自动合成对白、音效，与画面同步。

一个简单的提示词，立刻生成画面+对白+唇动同步+拟音音效，一气呵成。比如下面这段"我们能说话了！"的演绎👇

还能搞定复杂rap桥段，简单一句提示就能出片，比如"让一位老人谈论宇宙"，从口型、节奏到表情全都自然衔接，真假难辨。

发布会上，DeepMind CEO 哈萨比斯激动宣布："无声AI视频的时代终于结束了！用户只需用自然语言描述角色、场景、对白和语气，就能定制生成完整视频。"

从谷歌官方demo来看，Veo 3的音画结合能力已接近电影级制作水准，目前已在Gemini应用内对Google AI Ultra订阅用户开放，企业端用户也可在Vertex AI平台调用。

发布会刚落幕，全球网友已玩疯——

Rap神曲、洗脑视频、烹饪节目轮番上演网友脑洞大开，玩出了不少有趣作品👇

创意案例1： 👉 提示词（中译）：两个松饼在烘烤中对话，第一个松饼说："我不敢相信Veo 3现在能让松饼说话！"第二个惊呼："哇，一个会说话的松饼！"

结果，两个松饼不但对话表情丰富，连口型也神同步。

创意案例2： 还有复古1980年代电视烹饪节目，主持人是位65岁的英国老太太，一边揉面团一边说："这活儿可费劲......"结果面团抬起脸、用布鲁克林口音回："嘿女士，看着点，我正努力膨胀呢！" VHS老录像质感拉满。

创意案例3： 网友还玩出了未来主义俄罗斯Techno歌手洗脑神曲，连复杂的弹舌音效都能顺畅表现。

此外，谷歌首席创意技术专家也亲自测试Veo 3长视频生成能力，利用首尾帧控制功能，制作了一段超过1分钟的剧情短片。虽然背景音乐需自行添加，但对白与音效由Veo 3生成，完整度已极高。

优劣一览👇

Veo 3上手教学 想自己试试？操作很简单👇