2025年12月26日 | Tongyi Weekly：来自Tongyi Lab的每周前沿AI速递

发布: 3周前 (2025年12月26日 GMT+8 15:30)

6 min read

原文: Dev.to

Source: Dev.to

概览

随着 2025 年接近尾声，我们想向每一位表达最深的感激，感谢你们今年的创造力和支持。你们的实验、反馈和精彩作品是我们开放生态系统的心跳。

作为今年的最后一份礼物，我们很高兴分享在 2025 年最后一周诞生的最新模型和工具。

让我们看看刚刚上线的内容。

👉 订阅《同义周报》，永不错过任何发布
立即订阅 →

📣 模型发布与更新

推出 Qwen-Image-Layered – 原生图像分层，完全开源

为何脱颖而出

Photoshop 级分层 – 物理隔离的 RGBA 图层，具备真正的原生可编辑性。
提示控制的结构 – 明确指定 3–10 层，从粗略布局到细粒度细节。
无限分解 – 持续向下钻取：层中有层，细节深度无限。

快速开始

全新开源端到端语音模型：Fun‑Audio‑Chat

我们开源了 Fun‑Audio‑Chat —— 一个不仅仅是聊天机器人的端到端语音模型。它是你的 AI 语音伙伴：

具备共情 – 能理解情感、语调和意图。
面向行动 – 能根据语音指令完成任务。
端到端 S2S 架构 – 延迟更低，效率更高。
双分辨率设计 – GPU 成本降低约 50%。
多项基准领先（OpenAudioBench、MMAU 等）。

立即体验

全新 Qwen3‑TTS 系列：VoiceDesign 与 VoiceClone

创建、控制、克隆声音——比以往更快、更具表现力。

VoiceDesign‑VD‑Flash

通过自由文本指令（语调、节奏、情感、角色）实现完全可控的语音合成。
无预设声音——自行设计独特的声线身份。
在角色扮演基准上超越 GPT‑4o‑mini‑tts 与 Gemini‑2.5‑pro。

VoiceClone‑VC‑Flash

仅需 3 秒 音频即可克隆任意声音。
支持 10+ 种语言（中文、英文、日文、西班牙文等）生成语音。
在多语言测试中比 ElevenLabs 与 GPT‑4o‑Audio WER 低 15%。
上下文感知的节奏，使输出更自然。

立即尝试

Qwen‑Image‑Edit‑2511：更强的一致性与真实场景图像编辑

2511 的新特性

对多人合照和复杂场景的多人物一致性更强。
内置流行社区 LoRA——无需额外微调。
强化工业与产品设计生成能力。
降低图像漂移，显著提升角色与身份一致性。
改进几何推理（构图线、结构编辑）。

从保持身份的肖像编辑到高保真多人融合，再到实用的工程与设计工作流，2511 将图像编辑提升到新水平。

立即体验

🧩 生态系统亮点

Z‑Image Turbo：人工分析图像竞技场中排名第一的开源权重文本到图像模型

根据 Artificial Analysis，Z‑Image Turbo 目前在 Artificial Analysis Image Arena 中的所有开源权重图像模型中排名 #1。

为何领先

在阿里云上仅需 $5 / 1k 图像。
只需 16 GB 内存即可在消费级硬件上运行。
Apache 2.0 开源许可证。
一款 6B 的强大模型，证明高质量不一定需要高成本。

Z‑Image Turbo ranking

✨ Community Spotlights

Portrait Photography: BEYOND REALITY Z IMAGE 1.0 from Nurburgring

在 Z‑Image‑Turbo 的基础上微调，该模型在保持模拟胶片美感的同时，优化了皮肤纹理和环境细节。提供 BF16 与 FP8 两种版本（后者可在 8 GB VRAM 硬件上运行）。

👉 在此尝试

📬 想了解更多？保持更新

每周我们为您呈现：

新模型发布与升级
AI 研究突破
您可以立即使用的开源工具
激励人心的社区亮点

👉 订阅《同义周报》，永不错过任何发布
Subscribe Now →

同义实验室 是阿里巴巴集团旗下的人工智能与基础模型研究机构，专注于 AI 模型在各领域的研究、开发与创新应用。同义实验室涵盖大语言模型（LLM）、多模态理解与生成、视觉 AIGC、语音技术等方向。