2025年12月26日 | Tongyi Weekly:来自Tongyi Lab的每周前沿AI速递
Source: Dev.to
概览
随着 2025 年接近尾声,我们想向每一位表达最深的感激,感谢你们今年的创造力和支持。你们的实验、反馈和精彩作品是我们开放生态系统的心跳。
作为今年的最后一份礼物,我们很高兴分享在 2025 年最后一周诞生的最新模型和工具。
让我们看看刚刚上线的内容。
👉 订阅《同义周报》,永不错过任何发布
立即订阅 →
📣 模型发布与更新
推出 Qwen-Image-Layered – 原生图像分层,完全开源
为何脱颖而出
- Photoshop 级分层 – 物理隔离的 RGBA 图层,具备真正的原生可编辑性。
- 提示控制的结构 – 明确指定 3–10 层,从粗略布局到细粒度细节。
- 无限分解 – 持续向下钻取:层中有层,细节深度无限。
快速开始
全新开源端到端语音模型:Fun‑Audio‑Chat
我们开源了 Fun‑Audio‑Chat —— 一个不仅仅是聊天机器人的端到端语音模型。它是你的 AI 语音伙伴:
- 具备共情 – 能理解情感、语调和意图。
- 面向行动 – 能根据语音指令完成任务。
- 端到端 S2S 架构 – 延迟更低,效率更高。
- 双分辨率设计 – GPU 成本降低约 50%。
- 多项基准领先(OpenAudioBench、MMAU 等)。
立即体验
全新 Qwen3‑TTS 系列:VoiceDesign 与 VoiceClone
创建、控制、克隆声音——比以往更快、更具表现力。
VoiceDesign‑VD‑Flash
- 通过自由文本指令(语调、节奏、情感、角色)实现完全可控的语音合成。
- 无预设声音——自行设计独特的声线身份。
- 在角色扮演基准上超越 GPT‑4o‑mini‑tts 与 Gemini‑2.5‑pro。
VoiceClone‑VC‑Flash
- 仅需 3 秒 音频即可克隆任意声音。
- 支持 10+ 种语言(中文、英文、日文、西班牙文等)生成语音。
- 在多语言测试中比 ElevenLabs 与 GPT‑4o‑Audio WER 低 15%。
- 上下文感知的节奏,使输出更自然。
立即尝试
Qwen‑Image‑Edit‑2511:更强的一致性与真实场景图像编辑
2511 的新特性
- 对多人合照和复杂场景的多人物一致性更强。
- 内置流行社区 LoRA——无需额外微调。
- 强化工业与产品设计生成能力。
- 降低图像漂移,显著提升角色与身份一致性。
- 改进几何推理(构图线、结构编辑)。
从保持身份的肖像编辑到高保真多人融合,再到实用的工程与设计工作流,2511 将图像编辑提升到新水平。
立即体验
🧩 生态系统亮点
Z‑Image Turbo:人工分析图像竞技场中排名第一的开源权重文本到图像模型
根据 Artificial Analysis,Z‑Image Turbo 目前在 Artificial Analysis Image Arena 中的所有开源权重图像模型中排名 #1。
为何领先
- 在阿里云上仅需 $5 / 1k 图像。
- 只需 16 GB 内存即可在消费级硬件上运行。
- Apache 2.0 开源许可证。
- 一款 6B 的强大模型,证明高质量不一定需要高成本。

✨ Community Spotlights
Portrait Photography: BEYOND REALITY Z IMAGE 1.0 from Nurburgring
在 Z‑Image‑Turbo 的基础上微调,该模型在保持模拟胶片美感的同时,优化了皮肤纹理和环境细节。提供 BF16 与 FP8 两种版本(后者可在 8 GB VRAM 硬件上运行)。
👉 在此尝试
📬 想了解更多?保持更新
每周我们为您呈现:
- 新模型发布与升级
- AI 研究突破
- 您可以立即使用的开源工具
- 激励人心的社区亮点
👉 订阅《同义周报》,永不错过任何发布
Subscribe Now →
同义实验室 是阿里巴巴集团旗下的人工智能与基础模型研究机构,专注于 AI 模型在各领域的研究、开发与创新应用。 同义实验室涵盖大语言模型(LLM)、多模态理解与生成、视觉 AIGC、语音技术等方向。