使用 AI 网关进行视频生成

发布: (2026年2月19日 GMT+8 21:00)
8 分钟阅读

Source: Vercel Blog

请提供您希望翻译的完整文本内容,我将按照要求保留链接、格式和技术术语,仅翻译正文部分。

视频生成与图像生成的区别

  • 提示可以包含运动线索 – 摄像机移动、对象动作、时间安排。
  • 音频指令 可以添加(可选)。
  • 每个提供商通过 provider‑specific options 暴露不同的功能,这些选项解锁了根本不同的生成模式。
    请参阅 [Provider‑Specific Options Documentation] 获取详细信息。

AI Gateway 支持的视频生成类型

生成模式描述典型用例
文本转视频描述您想要的内容;模型负责视觉、运动,且可选音频。可从简单文本提示生成超写实、制作级质量的画面。广告创意、解释视频、社交内容
编程视频(API)按需为您的应用、平台或内容流水线生成视频。无需授权费用或制作,只需提示即可输出。大规模可扩展的编程视频
图像转视频将简单提示(或起始图像)转化为精致的视频片段,用于社交媒体、广告或叙事,具备自然运动和电影质感。创意内容生成、产品动画
参考转视频提供人物/角色的参考图像或视频;模型提取外观和声音,生成以其为主角且身份一致的新场景。代言人内容、统一品牌角色
首帧与尾帧定义起始和结束状态(两张图像);模型生成两者之间的无缝过渡。前后对比展示、延时摄影、服装切换
视频编辑 / 风格迁移提供源视频 URL 并描述所需的转换;模型在保留原始运动的同时应用新风格。水彩风格视频、艺术再渲染

示例模型及其典型工作流

模型(提供者)生成模式示例提示 / 用例
klingai/kling‑v2.6‑t2v文本到视频“生成一段30秒的电影级旅行视频,内容是阿尔卑斯山日出,伴随柔和的摄像机平移和环境交响乐。”
google/veo‑3.1‑generate‑001文本到视频(高保真)“创建一个写实的厨房场景,厨师正在切蔬菜,光照真实,并配有同步的音效。”
klingai/kling‑v2.6‑i2v图像到视频提供产品照片 URL + “添加慢速 360° 旋转和细微的光照变化。”
klingai/kling‑v3.0‑i2v‑imagelastFrame首帧‑末帧上传“前后”产品图片 → “生成平滑的过渡,展示产品组装过程。”
alibaba/wan‑v2.6‑r2v‑flash参考到视频提供两张狗的参考图片 → “创建一段狗在公园里玩接球的短视频,保持其外观特征。”
xai/grok‑imagine‑video视频编辑 / 风格迁移源视频 URL + “在保持原始运动的前提下,应用水彩画风格。”

提示: 对于多参考生成(例如多个角色),请在提示中加入 character1character2 等标签。最佳实践请参见 [Wan Prompt Guide]

模型创作者能力概览

提供商文本转视频图像转视频首帧与尾帧参考视频音频生成视频编辑
xAI
Alibaba Wan
Kling
Google Veo

入门

1. 编程访问(单一 API,统一认证流程)

AI SDK 6 让您可以使用与文本和图像相同的接口以编程方式生成视频。
• 单一 API 端点
• 统一认证
• 为整个 AI 流水线提供的集中可观测性仪表盘

# Example: Generate a 10‑second video from a text prompt
curl -X POST https://api.ai-gateway.com/v1/video \
  -H "Authorization: Bearer " \
  -H "Content-Type: application/json" \
  -d '{
        "model": "klingai/kling-v2.6-t2v",
        "prompt": "A futuristic city skyline at dusk, drone fly‑through, synthwave soundtrack",
        "duration_seconds": 10,
        "aspect_ratio": "16:9"
      }'

2. 无代码试玩场

每个模型页面都包含一个 嵌入式、可配置的试玩场,您可以在其中:

  • 并排比较不同提供商
  • 实时微调提示词和提供商选项
  • 在不编写任何代码的情况下下载结果

通过 AI Gateway → Model List → Video Generation 访问试玩场。

供应商聚焦

供应商优势显著模型
xAI – Grok Imagine快速,强大的指令遵循;视频编辑与风格迁移可在秒内完成。xai/grok-imagine-video
Alibaba – Wan基于参考的生成,多镜头叙事,跨场景身份保持。alibaba/wan-v2.6-r2v-flash
Kling出色的图像转视频,原生音频,新 3.0 模型支持多镜头视频并自动场景切换。klingai/kling-v3.0-i2v-imagelastFrame
Google – Veo最高的视觉保真度,真实的物理效果,原生音频生成并具电影级灯光。google/veo-3.1-generate-001

文档与资源

  • [Video Generation Documentation] – 完整参考指南。
  • [Video Generation Quick‑Start] – 步骤详尽的教程和示例脚本。
  • Changelogs – 每个模型的详细示例和提示更新。

快速参考表

生成类型

类型必需输入可选典型输出
文本转视频文本提示长宽比、时长、音频提示完整视频
图像转视频图像 URL(或上传)动作文本提示、音频动画片段
首帧‑末帧两张图像过渡风格提示无缝过渡视频
参考转视频角色的图像或视频片段描述新场景的提示主角为所引用实体的视频
视频编辑源视频 URL风格描述、音频叠加风格化视频

模型‑创作者能力

提供商文本转视频图像转视频首帧‑末帧参考转视频音频视频编辑
xAI
Wan
Kling
Veo

下一步

  1. 阅读完整文档 – 熟悉各供应商的特定选项。
  2. 选择模型 – 从 Playground 开始实验。
  3. 通过 API 集成 – 使用示例 cURL 请求(或 SDK)将视频生成嵌入到您的产品中。

祝创作愉快! 🚀

- deo
- image-to-video
- audio
0 浏览
Back to Blog

相关文章

阅读更多 »

WAN模型在AI网关上

使用阿里巴巴的 Wan 模型生成风格化视频并转换现有素材,现已通过 AI Gateway 提供。现在可通过 AI SDK 6 或通过选择…进行尝试。