使用 AI 网关进行视频生成

发布: 3天前 (2026年2月19日 GMT+8 21:00)

8 分钟阅读

Source: Vercel Blog

请提供您希望翻译的完整文本内容，我将按照要求保留链接、格式和技术术语，仅翻译正文部分。

视频生成与图像生成的区别

提示可以包含运动线索 – 摄像机移动、对象动作、时间安排。
音频指令 可以添加（可选）。
每个提供商通过 provider‑specific options 暴露不同的功能，这些选项解锁了根本不同的生成模式。
请参阅 [Provider‑Specific Options Documentation] 获取详细信息。

AI Gateway 支持的视频生成类型

生成模式	描述	典型用例
文本转视频	描述您想要的内容；模型负责视觉、运动，且可选音频。可从简单文本提示生成超写实、制作级质量的画面。	广告创意、解释视频、社交内容
编程视频（API）	按需为您的应用、平台或内容流水线生成视频。无需授权费用或制作，只需提示即可输出。	大规模可扩展的编程视频
图像转视频	将简单提示（或起始图像）转化为精致的视频片段，用于社交媒体、广告或叙事，具备自然运动和电影质感。	创意内容生成、产品动画
参考转视频	提供人物/角色的参考图像或视频；模型提取外观和声音，生成以其为主角且身份一致的新场景。	代言人内容、统一品牌角色
首帧与尾帧	定义起始和结束状态（两张图像）；模型生成两者之间的无缝过渡。	前后对比展示、延时摄影、服装切换
视频编辑 / 风格迁移	提供源视频 URL 并描述所需的转换；模型在保留原始运动的同时应用新风格。	水彩风格视频、艺术再渲染

示例模型及其典型工作流

模型（提供者）	生成模式	示例提示 / 用例
klingai/kling‑v2.6‑t2v	文本到视频	“生成一段30秒的电影级旅行视频，内容是阿尔卑斯山日出，伴随柔和的摄像机平移和环境交响乐。”
google/veo‑3.1‑generate‑001	文本到视频（高保真）	“创建一个写实的厨房场景，厨师正在切蔬菜，光照真实，并配有同步的音效。”
klingai/kling‑v2.6‑i2v	图像到视频	提供产品照片 URL + “添加慢速 360° 旋转和细微的光照变化。”
klingai/kling‑v3.0‑i2v‑imagelastFrame	首帧‑末帧	上传“前后”产品图片 → “生成平滑的过渡，展示产品组装过程。”
alibaba/wan‑v2.6‑r2v‑flash	参考到视频	提供两张狗的参考图片 → “创建一段狗在公园里玩接球的短视频，保持其外观特征。”
xai/grok‑imagine‑video	视频编辑 / 风格迁移	源视频 URL + “在保持原始运动的前提下，应用水彩画风格。”

提示： 对于多参考生成（例如多个角色），请在提示中加入 character1、character2 等标签。最佳实践请参见 [Wan Prompt Guide]。

模型创作者能力概览

提供商	文本转视频	图像转视频	首帧与尾帧	参考视频	音频生成	视频编辑
xAI	✅	✅	✅	✅	✅	✅
Alibaba Wan	✅	✅	✅	✅	✅	❌
Kling	✅	✅	✅	❌	✅	❌
Google Veo	✅	✅	❌	❌	✅	✅

入门

1. 编程访问（单一 API，统一认证流程）

AI SDK 6 让您可以使用与文本和图像相同的接口以编程方式生成视频。
• 单一 API 端点
• 统一认证
• 为整个 AI 流水线提供的集中可观测性仪表盘

# Example: Generate a 10‑second video from a text prompt
curl -X POST https://api.ai-gateway.com/v1/video \
  -H "Authorization: Bearer " \
  -H "Content-Type: application/json" \
  -d '{
        "model": "klingai/kling-v2.6-t2v",
        "prompt": "A futuristic city skyline at dusk, drone fly‑through, synthwave soundtrack",
        "duration_seconds": 10,
        "aspect_ratio": "16:9"
      }'

2. 无代码试玩场

每个模型页面都包含一个 嵌入式、可配置的试玩场，您可以在其中：

并排比较不同提供商
实时微调提示词和提供商选项
在不编写任何代码的情况下下载结果

通过 AI Gateway → Model List → Video Generation 访问试玩场。

供应商聚焦

供应商	优势	显著模型
xAI – Grok Imagine	快速，强大的指令遵循；视频编辑与风格迁移可在秒内完成。	`xai/grok-imagine-video`
Alibaba – Wan	基于参考的生成，多镜头叙事，跨场景身份保持。	`alibaba/wan-v2.6-r2v-flash`
Kling	出色的图像转视频，原生音频，新 3.0 模型支持多镜头视频并自动场景切换。	`klingai/kling-v3.0-i2v-imagelastFrame`
Google – Veo	最高的视觉保真度，真实的物理效果，原生音频生成并具电影级灯光。	`google/veo-3.1-generate-001`

文档与资源

[Video Generation Documentation] – 完整参考指南。
[Video Generation Quick‑Start] – 步骤详尽的教程和示例脚本。
Changelogs – 每个模型的详细示例和提示更新。

快速参考表

生成类型

类型	必需输入	可选	典型输出
文本转视频	文本提示	长宽比、时长、音频提示	完整视频
图像转视频	图像 URL（或上传）	动作文本提示、音频	动画片段
首帧‑末帧	两张图像	过渡风格提示	无缝过渡视频
参考转视频	角色的图像或视频片段	描述新场景的提示	主角为所引用实体的视频
视频编辑	源视频 URL	风格描述、音频叠加	风格化视频

模型‑创作者能力

提供商	文本转视频	图像转视频	首帧‑末帧	参考转视频	音频	视频编辑
xAI	✅	✅	✅	✅	✅	✅
Wan	✅	✅	✅	✅	✅	❌
Kling	✅	✅	✅	❌	✅	❌
Veo	✅	✅	❌	❌	✅	✅

下一步

阅读完整文档 – 熟悉各供应商的特定选项。
选择模型 – 从 Playground 开始实验。
通过 API 集成 – 使用示例 cURL 请求（或 SDK）将视频生成嵌入到您的产品中。

祝创作愉快！ 🚀

- deo
- image-to-video
- audio

使用 AI 网关进行视频生成

视频生成与图像生成的区别

AI Gateway 支持的视频生成类型

示例模型及其典型工作流

模型创作者能力概览

入门

1. 编程访问（单一 API，统一认证流程）

2. 无代码试玩场

供应商聚焦

文档与资源

快速参考表

生成类型

模型‑创作者能力

下一步

相关文章

技能之夜：69,000+ 种方式让代理变得更聪明

Streamdown 2.3 — 全新设计与交互式实验场

Veo 视频模型在 AI Gateway 上

WAN模型在AI网关上

视频生成与图像生成的区别

AI Gateway 支持的视频生成类型

示例模型及其典型工作流

模型创作者能力概览

入门

1. 编程访问（单一 API，统一认证流程）

2. 无代码试玩场

供应商聚焦

文档与资源

快速参考表

生成类型

模型‑创作者能力

下一步

相关文章

技能之夜：69,000+ 种方式让代理变得更聪明

Streamdown 2.3 — 全新设计与交互式实验场

Veo 视频模型在 AI Gateway 上

WAN模型在AI网关上

AI Gateway 支持的视频生成类型