过去,Sora的发布曾推动AI视频质量实现质的飞跃,也让视频中的物理逻辑表现更加逼真,彻底点燃了这条赛道。Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks等初创公司,以及OpenAI、谷歌、阿里、字节等巨头纷纷涌入。
不过即便画质、镜头调度再如何进步,AI视频依旧存在"哑巴"的问题——你可以看到角色奔跑、跳跃,甚至上演慢镜头动作,但要让人物开口说话、听见环境声或锅里的滋滋声?对不起,依旧需要后期配音。
而且,音频后期常常对不上节奏,口型不准、对白不同步,音效踩不准点,最终总让成片缺点气氛。
直到5月21日,谷歌正式推出Veo 3,AI视频终于能"说话"了!这款新模型不仅能生成高清画面,还能基于视频原始像素内容,自动合成对白、音效,与画面同步。
一个简单的提示词,立刻生成画面+对白+唇动同步+拟音音效,一气呵成。比如下面这段"我们能说话了!"的演绎👇
还能搞定复杂rap桥段,简单一句提示就能出片,比如"让一位老人谈论宇宙",从口型、节奏到表情全都自然衔接,真假难辨。
发布会上,DeepMind CEO 哈萨比斯激动宣布:"无声AI视频的时代终于结束了!用户只需用自然语言描述角色、场景、对白和语气,就能定制生成完整视频。"
从谷歌官方demo来看,Veo 3的音画结合能力已接近电影级制作水准,目前已在Gemini应用内对Google AI Ultra订阅用户开放,企业端用户也可在Vertex AI平台调用。
发布会刚落幕,全球网友已玩疯——
Rap神曲、洗脑视频、烹饪节目轮番上演 网友脑洞大开,玩出了不少有趣作品👇
创意案例1: 👉 提示词(中译): 两个松饼在烘烤中对话,第一个松饼说:"我不敢相信Veo 3现在能让松饼说话!"第二个惊呼:"哇,一个会说话的松饼!"
结果,两个松饼不但对话表情丰富,连口型也神同步。
创意案例2: 还有复古1980年代电视烹饪节目,主持人是位65岁的英国老太太,一边揉面团一边说:"这活儿可费劲......"结果面团抬起脸、用布鲁克林口音回:"嘿女士,看着点,我正努力膨胀呢!" VHS老录像质感拉满。
创意案例3: 网友还玩出了未来主义俄罗斯Techno歌手洗脑神曲,连复杂的弹舌音效都能顺畅表现。
此外,谷歌首席创意技术专家也亲自测试Veo 3长视频生成能力,利用首尾帧控制功能,制作了一段超过1分钟的剧情短片。虽然背景音乐需自行添加,但对白与音效由Veo 3生成,完整度已极高。
优劣一览👇
Veo 3上手教学 想自己试试?操作很简单👇