2025年12月19日 | 同义周刊:来自同义实验室的前沿AI每周精选
Source: Dev.to
Hello, creators and builders,
This week was a harvest of breakthroughs in voice and video AI. From Wan2.6 — our cinematic multimodal generation model that brings characters to life with consistent appearance, voice, and cinematic storytelling — to Fun‑ASR and Fun‑CosyVoice 3, our speech models now available with open‑source versions, the future of expressive AI has never felt closer.
Let’s dive in.
👉 Subscribe to The Tongyi Weekly and never miss a release
Subscribe Now →
📣 模型发布与更新
推出 Wan2.6 – 电影级多模态生成模型
- 角色出演 – 将参考视频中的角色投射到新场景中。支持人类或类人形象,实现复杂的多人及人‑物交互,并保持外观和声音的一致性。
- 智能多镜头叙事 – 将简单提示转化为自动分镜的多镜头视频。保持视觉一致性,将单镜头提升为丰富的叙事。
- 原生音视频同步 – 生成多说话人对话,具备自然的唇形同步和工作室级音频。它不仅看起来真实,听起来也真实。
- 电影质量 – 15 秒 1080p 高清生成,全面升级指令遵循、运动物理和美学控制。
- 高级图像合成与编辑 – 提供电影级写实效果,精准控制镜头和光照。支持多图像参考,实现商业级一致性和忠实的美学迁移。
- 结构化叙事 – 生成交叉的文本与图像,依托真实世界知识和推理能力,实现层次化、结构化的视觉叙事。
🔗 亲自试用 Wan 2.6 – 每天免费 150 次额度!
🔗 API 文档
Fun‑ASR 升级 – 噪声鲁棒、多语言、可定制的 ASR
我们很高兴发布 Fun‑ASR 的最新进化版——企业级端到端自动语音识别模型,现在更具噪声鲁棒性、更支持多语言、且可定制性更强。同时我们也将轻量级 Fun‑ASR‑Nano (0.8 B) 模型开源。
Fun‑ASR 主要升级
- 在会议、地铁站、车内等真实噪声环境下实现 93 % 准确率。
- 歌词识别突破 – 即使伴随强背景音乐或 Rap 风格,也能准确转写人声。
- 支持 31 种语言,对东亚和东南亚语言(如日语、越南语)性能提升显著。
- 覆盖 7 大中文方言组 与 26 种地区口音,精度高。
- 基于 RAG 的定制 – 热词上限从 1 000 提升至 10 000,且不影响准确性。
Fun‑ASR‑Nano (0.8 B) – 开源
轻量但噪声抵抗力强,针对计算受限场景、边缘设备和低延迟实时识别进行优化。
🔗 现已上线:
Fun‑CosyVoice 3 – 下一代文本转语音模型
Fun‑CosyVoice 3 现在更快、更具表现力,并已正式开源。
新特性
- 降低 50 % 的首词延迟,支持全双向流式 TTS,实现真正的实时“打字转语音”。
- 中文‑英文代码切换改进 – 词错误率(WER)降低 56.4 %。
- 增强的零样本语音克隆 – 仅用 3 秒音频即可复制声音,提升一致性和情感控制。
- 拥有 30+ 音色、9 种语言、18 种中文方言口音、9 种情感风格,并具备跨语言语音克隆能力。
- 基准提升 – 在高难度测试场景中字符错误率(CER)相对下降 26 %,多项指标接近人声质量。
Fun‑CosyVoice 3 (0.5 B) – 开源
轻量版 0.5 B 参数模型,支持零样本语音克隆和本地部署,在评测指标上超越主流开源 TTS 模型。
🔗 探索与下载
ice3-0.5B)
Qwen Code v0.5.0 – 更智能的 AI 编码助手
新增功能
- VSCode 集成 – 在 VSCode 发布包中捆绑 CLI,提升跨平台兼容性。
- 原生 TypeScript SDK – 可无缝集成到 Node/TS 项目中。
- 智能会话管理 – 自动保存并继续对话。
- 支持 OpenAI 兼容的推理模型(如 DeepSeek V3.2、Kimi‑K2 等)。
- 通过 SDK 托管的服务器实现自定义工具控制。
- 俄语语言支持 – 国际化,提供俄语 UI 选项。
- 改进的用户体验 – 终端铃声用于音频通知,并显示会话恢复命令。
- 测试与稳定性 – 大量 bug 修复和稳定性提升。
(发布说明在此摘录后仍在继续。)
🚀 新版发布亮点
- Ubuntu shell 支持
- 更快的 SDK 超时
- 稳如磐石的测试稳定性
在终端中开始使用
npm install -g @qwen-code/qwen-code
🔗 完整更新日志
✨ 社区聚焦
儿童故事讲述:COOLKIDS LoRA – 作者 Clumsy_Trainer
这个 Z‑Image‑Turbo LoRA 捕捉了儿童插画的奇思妙想、温暖以及视觉魅力——非常适合绘本、教育内容或动画短片。生成的图像宛如一本珍爱故事书的页面。
肖像润色器:AWPortrait‑Z – 作者 Shakker‑Labs
AWPortrait‑Z 是一种原生降噪 LoRA,提升了 Z‑Image 的肖像能力。从“重新照明”的光效到真实的皮肤质感,它为角色生成带来了巨大的使用体验提升。
Z‑Image 工作流杰作 – 作者 luneva
该工作流以惊人的速度为前景和背景生成像素级的真实细节。无需暴力计算,也不需要放大——纯粹的高密度写实。是社区必试之作。
🔥 即将举办的活动
WAN MUSE+ 第三季 “IN CHARACTER” – 现已上线
我们非常激动地推出 WAN MUSE+ 第三季:“IN CHARACTER” —— 这是一项面向全球的创意挑战,邀请您探索身份、叙事与 AI 表达。
- **奖金池:**最高 $14,000
- 奖项类别:
- 最佳叙事
- 最佳动画短片
- 最佳视觉
- 最佳公益广告(PSA)
- 提名奖 & 特别灵感奖
参赛方式
- 在 TikTok、Instagram、X 或 YouTube 上发布作品。
- 使用标签
#incharacter #wanmuse #wan。
AIGC 平台: SeaArt.Ai、WaveSpeedAI、Tensor.Art
🔗 完整详情
📬 想了解更多?保持更新
每周我们为您带来:
- 新模型发布与升级
- AI 研究突破
- 今日可用的开源工具
- 激励人心的社区亮点
👉 订阅《同义周报》,永不错过任何发布。
立即订阅 →
关于同义实验室
同义实验室是阿里巴巴集团旗下的研究机构,专注于人工智能与基础模型。我们致力于 AI 在各个领域的研究、开发与创新应用,涵盖大语言模型(LLMs)、多模态理解与生成、视觉 AIGC、语音技术等方向。


