2025年12月19日 | 同义周刊：来自同义实验室的前沿AI每周精选

发布: 1个月前 (2025年12月19日 GMT+8 15:47)

8 分钟阅读

Source: Dev.to

Hello, creators and builders,

This week was a harvest of breakthroughs in voice and video AI. From Wan2.6 — our cinematic multimodal generation model that brings characters to life with consistent appearance, voice, and cinematic storytelling — to Fun‑ASR and Fun‑CosyVoice 3, our speech models now available with open‑source versions, the future of expressive AI has never felt closer.

Let’s dive in.

👉 Subscribe to The Tongyi Weekly and never miss a release
Subscribe Now →

📣 模型发布与更新

推出 Wan2.6 – 电影级多模态生成模型

角色出演 – 将参考视频中的角色投射到新场景中。支持人类或类人形象，实现复杂的多人及人‑物交互，并保持外观和声音的一致性。
智能多镜头叙事 – 将简单提示转化为自动分镜的多镜头视频。保持视觉一致性，将单镜头提升为丰富的叙事。
原生音视频同步 – 生成多说话人对话，具备自然的唇形同步和工作室级音频。它不仅看起来真实，听起来也真实。
电影质量 – 15 秒 1080p 高清生成，全面升级指令遵循、运动物理和美学控制。
高级图像合成与编辑 – 提供电影级写实效果，精准控制镜头和光照。支持多图像参考，实现商业级一致性和忠实的美学迁移。
结构化叙事 – 生成交叉的文本与图像，依托真实世界知识和推理能力，实现层次化、结构化的视觉叙事。

🔗 亲自试用 Wan 2.6 – 每天免费 150 次额度！
🔗 API 文档

Fun‑ASR 升级 – 噪声鲁棒、多语言、可定制的 ASR

我们很高兴发布 Fun‑ASR 的最新进化版——企业级端到端自动语音识别模型，现在更具噪声鲁棒性、更支持多语言、且可定制性更强。同时我们也将轻量级 Fun‑ASR‑Nano (0.8 B) 模型开源。

Fun‑ASR 主要升级

在会议、地铁站、车内等真实噪声环境下实现 93 % 准确率。
歌词识别突破 – 即使伴随强背景音乐或 Rap 风格，也能准确转写人声。
支持 31 种语言，对东亚和东南亚语言（如日语、越南语）性能提升显著。
覆盖 7 大中文方言组 与 26 种地区口音，精度高。
基于 RAG 的定制 – 热词上限从 1 000 提升至 10 000，且不影响准确性。

Fun‑ASR‑Nano (0.8 B) – 开源

轻量但噪声抵抗力强，针对计算受限场景、边缘设备和低延迟实时识别进行优化。

🔗 现已上线：

Fun‑CosyVoice 3 – 下一代文本转语音模型

Fun‑CosyVoice 3 现在更快、更具表现力，并已正式开源。

新特性

降低 50 % 的首词延迟，支持全双向流式 TTS，实现真正的实时“打字转语音”。
中文‑英文代码切换改进 – 词错误率（WER）降低 56.4 %。
增强的零样本语音克隆 – 仅用 3 秒音频即可复制声音，提升一致性和情感控制。
拥有 30+ 音色、9 种语言、18 种中文方言口音、9 种情感风格，并具备跨语言语音克隆能力。
基准提升 – 在高难度测试场景中字符错误率（CER）相对下降 26 %，多项指标接近人声质量。

Fun‑CosyVoice 3 (0.5 B) – 开源

轻量版 0.5 B 参数模型，支持零样本语音克隆和本地部署，在评测指标上超越主流开源 TTS 模型。

🔗 探索与下载

ModelScope

ice3-0.5B)

Qwen Code v0.5.0 – 更智能的 AI 编码助手

新增功能

VSCode 集成 – 在 VSCode 发布包中捆绑 CLI，提升跨平台兼容性。
原生 TypeScript SDK – 可无缝集成到 Node/TS 项目中。
智能会话管理 – 自动保存并继续对话。
支持 OpenAI 兼容的推理模型（如 DeepSeek V3.2、Kimi‑K2 等）。
通过 SDK 托管的服务器实现自定义工具控制。
俄语语言支持 – 国际化，提供俄语 UI 选项。
改进的用户体验 – 终端铃声用于音频通知，并显示会话恢复命令。
测试与稳定性 – 大量 bug 修复和稳定性提升。

(发布说明在此摘录后仍在继续。)

🚀 新版发布亮点

Ubuntu shell 支持
更快的 SDK 超时
稳如磐石的测试稳定性

在终端中开始使用

npm install -g @qwen-code/qwen-code

🔗 完整更新日志

✨ 社区聚焦

儿童故事讲述：COOLKIDS LoRA – 作者 Clumsy_Trainer

这个 Z‑Image‑Turbo LoRA 捕捉了儿童插画的奇思妙想、温暖以及视觉魅力——非常适合绘本、教育内容或动画短片。生成的图像宛如一本珍爱故事书的页面。

👉 Try it here

肖像润色器：AWPortrait‑Z – 作者 Shakker‑Labs

AWPortrait‑Z 是一种原生降噪 LoRA，提升了 Z‑Image 的肖像能力。从“重新照明”的光效到真实的皮肤质感，它为角色生成带来了巨大的使用体验提升。

👉 Try it here

Z‑Image 工作流杰作 – 作者 luneva

该工作流以惊人的速度为前景和背景生成像素级的真实细节。无需暴力计算，也不需要放大——纯粹的高密度写实。是社区必试之作。

👉 Try it here

🔥 即将举办的活动

WAN MUSE+ 第三季 “IN CHARACTER” – 现已上线

我们非常激动地推出 WAN MUSE+ 第三季：“IN CHARACTER” —— 这是一项面向全球的创意挑战，邀请您探索身份、叙事与 AI 表达。

**奖金池：**最高 $14,000
奖项类别：
- 最佳叙事
- 最佳动画短片
- 最佳视觉
- 最佳公益广告（PSA）
- 提名奖 & 特别灵感奖

参赛方式

在 TikTok、Instagram、X 或 YouTube 上发布作品。
使用标签 #incharacter #wanmuse #wan。

AIGC 平台： SeaArt.Ai、WaveSpeedAI、Tensor.Art

🔗 完整详情

📬 想了解更多？保持更新

每周我们为您带来：

新模型发布与升级
AI 研究突破
今日可用的开源工具
激励人心的社区亮点

👉 订阅《同义周报》，永不错过任何发布。

立即订阅 →

关于同义实验室

同义实验室是阿里巴巴集团旗下的研究机构，专注于人工智能与基础模型。我们致力于 AI 在各个领域的研究、开发与创新应用，涵盖大语言模型（LLMs）、多模态理解与生成、视觉 AIGC、语音技术等方向。

2025年12月19日 | 同义周刊：来自同义实验室的前沿AI每周精选