使用 AI 网关进行视频生成
发布: (2026年2月19日 GMT+8 21:00)
8 分钟阅读
原文: Vercel Blog
Source: Vercel Blog
请提供您希望翻译的完整文本内容,我将按照要求保留链接、格式和技术术语,仅翻译正文部分。
视频生成与图像生成的区别
- 提示可以包含运动线索 – 摄像机移动、对象动作、时间安排。
- 音频指令 可以添加(可选)。
- 每个提供商通过 provider‑specific options 暴露不同的功能,这些选项解锁了根本不同的生成模式。
请参阅 [Provider‑Specific Options Documentation] 获取详细信息。
AI Gateway 支持的视频生成类型
| 生成模式 | 描述 | 典型用例 |
|---|---|---|
| 文本转视频 | 描述您想要的内容;模型负责视觉、运动,且可选音频。可从简单文本提示生成超写实、制作级质量的画面。 | 广告创意、解释视频、社交内容 |
| 编程视频(API) | 按需为您的应用、平台或内容流水线生成视频。无需授权费用或制作,只需提示即可输出。 | 大规模可扩展的编程视频 |
| 图像转视频 | 将简单提示(或起始图像)转化为精致的视频片段,用于社交媒体、广告或叙事,具备自然运动和电影质感。 | 创意内容生成、产品动画 |
| 参考转视频 | 提供人物/角色的参考图像或视频;模型提取外观和声音,生成以其为主角且身份一致的新场景。 | 代言人内容、统一品牌角色 |
| 首帧与尾帧 | 定义起始和结束状态(两张图像);模型生成两者之间的无缝过渡。 | 前后对比展示、延时摄影、服装切换 |
| 视频编辑 / 风格迁移 | 提供源视频 URL 并描述所需的转换;模型在保留原始运动的同时应用新风格。 | 水彩风格视频、艺术再渲染 |
示例模型及其典型工作流
| 模型(提供者) | 生成模式 | 示例提示 / 用例 |
|---|---|---|
| klingai/kling‑v2.6‑t2v | 文本到视频 | “生成一段30秒的电影级旅行视频,内容是阿尔卑斯山日出,伴随柔和的摄像机平移和环境交响乐。” |
| google/veo‑3.1‑generate‑001 | 文本到视频(高保真) | “创建一个写实的厨房场景,厨师正在切蔬菜,光照真实,并配有同步的音效。” |
| klingai/kling‑v2.6‑i2v | 图像到视频 | 提供产品照片 URL + “添加慢速 360° 旋转和细微的光照变化。” |
| klingai/kling‑v3.0‑i2v‑imagelastFrame | 首帧‑末帧 | 上传“前后”产品图片 → “生成平滑的过渡,展示产品组装过程。” |
| alibaba/wan‑v2.6‑r2v‑flash | 参考到视频 | 提供两张狗的参考图片 → “创建一段狗在公园里玩接球的短视频,保持其外观特征。” |
| xai/grok‑imagine‑video | 视频编辑 / 风格迁移 | 源视频 URL + “在保持原始运动的前提下,应用水彩画风格。” |
提示: 对于多参考生成(例如多个角色),请在提示中加入
character1、character2等标签。最佳实践请参见 [Wan Prompt Guide]。
模型创作者能力概览
| 提供商 | 文本转视频 | 图像转视频 | 首帧与尾帧 | 参考视频 | 音频生成 | 视频编辑 |
|---|---|---|---|---|---|---|
| xAI | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Alibaba Wan | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ |
| Kling | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ |
| Google Veo | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
入门
1. 编程访问(单一 API,统一认证流程)
AI SDK 6 让您可以使用与文本和图像相同的接口以编程方式生成视频。
• 单一 API 端点
• 统一认证
• 为整个 AI 流水线提供的集中可观测性仪表盘
# Example: Generate a 10‑second video from a text prompt
curl -X POST https://api.ai-gateway.com/v1/video \
-H "Authorization: Bearer " \
-H "Content-Type: application/json" \
-d '{
"model": "klingai/kling-v2.6-t2v",
"prompt": "A futuristic city skyline at dusk, drone fly‑through, synthwave soundtrack",
"duration_seconds": 10,
"aspect_ratio": "16:9"
}'
2. 无代码试玩场
每个模型页面都包含一个 嵌入式、可配置的试玩场,您可以在其中:
- 并排比较不同提供商
- 实时微调提示词和提供商选项
- 在不编写任何代码的情况下下载结果
通过 AI Gateway → Model List → Video Generation 访问试玩场。
供应商聚焦
| 供应商 | 优势 | 显著模型 |
|---|---|---|
| xAI – Grok Imagine | 快速,强大的指令遵循;视频编辑与风格迁移可在秒内完成。 | xai/grok-imagine-video |
| Alibaba – Wan | 基于参考的生成,多镜头叙事,跨场景身份保持。 | alibaba/wan-v2.6-r2v-flash |
| Kling | 出色的图像转视频,原生音频,新 3.0 模型支持多镜头视频并自动场景切换。 | klingai/kling-v3.0-i2v-imagelastFrame |
| Google – Veo | 最高的视觉保真度,真实的物理效果,原生音频生成并具电影级灯光。 | google/veo-3.1-generate-001 |
文档与资源
- [Video Generation Documentation] – 完整参考指南。
- [Video Generation Quick‑Start] – 步骤详尽的教程和示例脚本。
- Changelogs – 每个模型的详细示例和提示更新。
快速参考表
生成类型
| 类型 | 必需输入 | 可选 | 典型输出 |
|---|---|---|---|
| 文本转视频 | 文本提示 | 长宽比、时长、音频提示 | 完整视频 |
| 图像转视频 | 图像 URL(或上传) | 动作文本提示、音频 | 动画片段 |
| 首帧‑末帧 | 两张图像 | 过渡风格提示 | 无缝过渡视频 |
| 参考转视频 | 角色的图像或视频片段 | 描述新场景的提示 | 主角为所引用实体的视频 |
| 视频编辑 | 源视频 URL | 风格描述、音频叠加 | 风格化视频 |
模型‑创作者能力
| 提供商 | 文本转视频 | 图像转视频 | 首帧‑末帧 | 参考转视频 | 音频 | 视频编辑 |
|---|---|---|---|---|---|---|
| xAI | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Wan | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ |
| Kling | ✅ | ✅ | ✅ | ❌ | ✅ | ❌ |
| Veo | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ |
下一步
- 阅读完整文档 – 熟悉各供应商的特定选项。
- 选择模型 – 从 Playground 开始实验。
- 通过 API 集成 – 使用示例 cURL 请求(或 SDK)将视频生成嵌入到您的产品中。
祝创作愉快! 🚀
- deo
- image-to-video
- audio