2025年12月19日 | 同义周刊:来自同义实验室的前沿AI每周精选

发布: (2025年12月19日 GMT+8 15:47)
8 min read
原文: Dev.to

Source: Dev.to

Hello, creators and builders,

This week was a harvest of breakthroughs in voice and video AI. From Wan2.6 — our cinematic multimodal generation model that brings characters to life with consistent appearance, voice, and cinematic storytelling — to Fun‑ASR and Fun‑CosyVoice 3, our speech models now available with open‑source versions, the future of expressive AI has never felt closer.

Let’s dive in.

👉 Subscribe to The Tongyi Weekly and never miss a release
Subscribe Now →

📣 模型发布与更新

推出 Wan2.6 – 电影级多模态生成模型

  • 角色出演 – 将参考视频中的角色投射到新场景中。支持人类或类人形象,实现复杂的多人及人‑物交互,并保持外观和声音的一致性。
  • 智能多镜头叙事 – 将简单提示转化为自动分镜的多镜头视频。保持视觉一致性,将单镜头提升为丰富的叙事。
  • 原生音视频同步 – 生成多说话人对话,具备自然的唇形同步和工作室级音频。它不仅看起来真实,听起来也真实。
  • 电影质量 – 15 秒 1080p 高清生成,全面升级指令遵循、运动物理和美学控制。
  • 高级图像合成与编辑 – 提供电影级写实效果,精准控制镜头和光照。支持多图像参考,实现商业级一致性和忠实的美学迁移。
  • 结构化叙事 – 生成交叉的文本与图像,依托真实世界知识和推理能力,实现层次化、结构化的视觉叙事。

🔗 亲自试用 Wan 2.6 – 每天免费 150 次额度!
🔗 API 文档

Fun‑ASR 升级 – 噪声鲁棒、多语言、可定制的 ASR

我们很高兴发布 Fun‑ASR 的最新进化版——企业级端到端自动语音识别模型,现在更具噪声鲁棒性、更支持多语言、且可定制性更强。同时我们也将轻量级 Fun‑ASR‑Nano (0.8 B) 模型开源。

Fun‑ASR 主要升级

  • 在会议、地铁站、车内等真实噪声环境下实现 93 % 准确率
  • 歌词识别突破 – 即使伴随强背景音乐或 Rap 风格,也能准确转写人声。
  • 支持 31 种语言,对东亚和东南亚语言(如日语、越南语)性能提升显著。
  • 覆盖 7 大中文方言组26 种地区口音,精度高。
  • 基于 RAG 的定制 – 热词上限从 1 000 提升至 10 000,且不影响准确性。

Fun‑ASR‑Nano (0.8 B) – 开源

轻量但噪声抵抗力强,针对计算受限场景、边缘设备和低延迟实时识别进行优化。

🔗 现已上线:

Fun‑CosyVoice 3 – 下一代文本转语音模型

Fun‑CosyVoice 3 现在更快、更具表现力,并已正式开源。

新特性

  • 降低 50 % 的首词延迟,支持全双向流式 TTS,实现真正的实时“打字转语音”。
  • 中文‑英文代码切换改进 – 词错误率(WER)降低 56.4 %。
  • 增强的零样本语音克隆 – 仅用 3 秒音频即可复制声音,提升一致性和情感控制。
  • 拥有 30+ 音色9 种语言18 种中文方言口音9 种情感风格,并具备跨语言语音克隆能力。
  • 基准提升 – 在高难度测试场景中字符错误率(CER)相对下降 26 %,多项指标接近人声质量。

Fun‑CosyVoice 3 (0.5 B) – 开源

轻量版 0.5 B 参数模型,支持零样本语音克隆和本地部署,在评测指标上超越主流开源 TTS 模型。

🔗 探索与下载

ice3-0.5B)

Qwen Code v0.5.0 – 更智能的 AI 编码助手

新增功能

  • VSCode 集成 – 在 VSCode 发布包中捆绑 CLI,提升跨平台兼容性。
  • 原生 TypeScript SDK – 可无缝集成到 Node/TS 项目中。
  • 智能会话管理 – 自动保存并继续对话。
  • 支持 OpenAI 兼容的推理模型(如 DeepSeek V3.2、Kimi‑K2 等)。
  • 通过 SDK 托管的服务器实现自定义工具控制
  • 俄语语言支持 – 国际化,提供俄语 UI 选项。
  • 改进的用户体验 – 终端铃声用于音频通知,并显示会话恢复命令。
  • 测试与稳定性 – 大量 bug 修复和稳定性提升。

(发布说明在此摘录后仍在继续。)

🚀 新版发布亮点

  • Ubuntu shell 支持
  • 更快的 SDK 超时
  • 稳如磐石的测试稳定性

在终端中开始使用

npm install -g @qwen-code/qwen-code

🔗 完整更新日志

✨ 社区聚焦

儿童故事讲述:COOLKIDS LoRA作者 Clumsy_Trainer

这个 Z‑Image‑Turbo LoRA 捕捉了儿童插画的奇思妙想、温暖以及视觉魅力——非常适合绘本、教育内容或动画短片。生成的图像宛如一本珍爱故事书的页面。

👉 Try it here

肖像润色器:AWPortrait‑Z作者 Shakker‑Labs

AWPortrait‑Z 是一种原生降噪 LoRA,提升了 Z‑Image 的肖像能力。从“重新照明”的光效到真实的皮肤质感,它为角色生成带来了巨大的使用体验提升。

👉 Try it here

Z‑Image 工作流杰作 – 作者 luneva

该工作流以惊人的速度为前景和背景生成像素级的真实细节。无需暴力计算,也不需要放大——纯粹的高密度写实。是社区必试之作。

👉 Try it here

🔥 即将举办的活动

WAN MUSE+ 第三季 “IN CHARACTER” – 现已上线

我们非常激动地推出 WAN MUSE+ 第三季:“IN CHARACTER” —— 这是一项面向全球的创意挑战,邀请您探索身份、叙事与 AI 表达。

  • **奖金池:**最高 $14,000
  • 奖项类别:
    • 最佳叙事
    • 最佳动画短片
    • 最佳视觉
    • 最佳公益广告(PSA)
    • 提名奖 & 特别灵感奖

参赛方式

  1. 在 TikTok、Instagram、X 或 YouTube 上发布作品。
  2. 使用标签 #incharacter #wanmuse #wan

AIGC 平台: SeaArt.Ai、WaveSpeedAI、Tensor.Art

🔗 完整详情

📬 想了解更多?保持更新

每周我们为您带来:

  • 新模型发布与升级
  • AI 研究突破
  • 今日可用的开源工具
  • 激励人心的社区亮点

👉 订阅《同义周报》,永不错过任何发布。

立即订阅 →


关于同义实验室

同义实验室是阿里巴巴集团旗下的研究机构,专注于人工智能与基础模型。我们致力于 AI 在各个领域的研究、开发与创新应用,涵盖大语言模型(LLMs)、多模态理解与生成、视觉 AIGC、语音技术等方向。

Back to Blog

相关文章

阅读更多 »