Veo 3.1 是 Google DeepMind 最新的视频生成模型,首次在 Google I/O 上亮相。Google 通过三个平台部署:Flow(AI 电影制作工具)、Gemini API(面向开发者)、Vertex AI(企业集成)。在 Google 自己的 API 上,标准版 $0.40/秒、快速版 $0.15/秒,没有免费层级。在我们平台,同样的模型每秒约 $0.06–0.25,还有免费积分起步——成本优势显著。
影视级视觉质量。
Veo 与其他模型的差距在光影和材质上最明显。正确的景深和真实散景、不蜡质的皮肤纹理、正确物理效果的布料垂坠和飘动。输出经常能通过"素材库测试"——放进真实制作中也看不出是 AI 生成的。纹理保真度尤其惊人:在 ASMR 风格的特写镜头中(比如刀切玻璃水果),表面反射、透光性和微细节渲染得令人惊叹。
跨次元风格融合。
Veo 3.1 最独特的能力之一:它能将完全不同画风的角色融合到同一个连贯场景中。动漫角色与真人互动、像素风人物走在实拍环境中——Veo 理解每种风格的视觉语言并让融合自然成立。目前没有其他模型能可靠地处理这种跨风格合成。
首尾帧插值。
给 Veo 一张"起始"图片和一张"结束"图片,它自动生成两者之间的过渡动画。模型会补充运动、镜头移动和光照变化,创建流畅自然的序列。这对分镜到视频的工作流非常强大——当你已经知道一个镜头的开头和结尾时。
两种模式,成本差异大。
Veo Fast 约 30 秒生成,每段 8 秒视频 50 积分——适合快速迭代。Veo Quality 需要 1–2 分钟,200 积分,但细节明显更丰富。大多数用户先用 Fast 调好提示词,再切 Quality 出终版。
自动音效(无对白)。
和 Sora 2 一样,Veo 生成同步环境音频——脚步声、环境音效、ASMR 纹理音。在自然景观和氛围感内容上特别强。和 Sora 2 不同,Veo 不生成对白或角色语音。
和 Sora 2 的真实对比。
两者都是顶级模型。Veo 3.1 在纹理保真度和创意功能(风格融合、帧插值)上略胜一筹。Sora 2 在叙事连贯性、物理模拟、对白生成和 API 成本上胜出(Sora 的 API 定价明显低于 Veo)。对于自动化生产管线,Sora 2 目前性价比更高。对于创意探索和视觉打磨,Veo 3.1 更有优势。