2025年12月26日 | Tongyi Weekly:来自Tongyi Lab的每周前沿AI速递

发布: (2025年12月26日 GMT+8 15:30)
6 min read
原文: Dev.to

Source: Dev.to

概览

随着 2025 年接近尾声,我们想向每一位表达最深的感激,感谢你们今年的创造力和支持。你们的实验、反馈和精彩作品是我们开放生态系统的心跳。

作为今年的最后一份礼物,我们很高兴分享在 2025 年最后一周诞生的最新模型和工具。

让我们看看刚刚上线的内容。

👉 订阅《同义周报》,永不错过任何发布
立即订阅 →

📣 模型发布与更新

推出 Qwen-Image-Layered – 原生图像分层,完全开源

为何脱颖而出

  • Photoshop 级分层 – 物理隔离的 RGBA 图层,具备真正的原生可编辑性。
  • 提示控制的结构 – 明确指定 3–10 层,从粗略布局到细粒度细节。
  • 无限分解 – 持续向下钻取:层中有层,细节深度无限。

快速开始

全新开源端到端语音模型:Fun‑Audio‑Chat

我们开源了 Fun‑Audio‑Chat —— 一个不仅仅是聊天机器人的端到端语音模型。它是你的 AI 语音伙伴:

  • 具备共情 – 能理解情感、语调和意图。
  • 面向行动 – 能根据语音指令完成任务。
  • 端到端 S2S 架构 – 延迟更低,效率更高。
  • 双分辨率设计 – GPU 成本降低约 50%。
  • 多项基准领先(OpenAudioBench、MMAU 等)。

立即体验

全新 Qwen3‑TTS 系列:VoiceDesignVoiceClone

创建、控制、克隆声音——比以往更快、更具表现力。

VoiceDesign‑VD‑Flash

  • 通过自由文本指令(语调、节奏、情感、角色)实现完全可控的语音合成。
  • 无预设声音——自行设计独特的声线身份。
  • 在角色扮演基准上超越 GPT‑4o‑mini‑tts 与 Gemini‑2.5‑pro。

VoiceClone‑VC‑Flash

  • 仅需 3 秒 音频即可克隆任意声音。
  • 支持 10+ 种语言(中文、英文、日文、西班牙文等)生成语音。
  • 在多语言测试中比 ElevenLabs 与 GPT‑4o‑Audio WER 低 15%
  • 上下文感知的节奏,使输出更自然。

立即尝试

Qwen‑Image‑Edit‑2511:更强的一致性与真实场景图像编辑

2511 的新特性

  • 对多人合照和复杂场景的多人物一致性更强。
  • 内置流行社区 LoRA——无需额外微调。
  • 强化工业与产品设计生成能力。
  • 降低图像漂移,显著提升角色与身份一致性。
  • 改进几何推理(构图线、结构编辑)。

从保持身份的肖像编辑到高保真多人融合,再到实用的工程与设计工作流,2511 将图像编辑提升到新水平。

立即体验

🧩 生态系统亮点

Z‑Image Turbo:人工分析图像竞技场中排名第一的开源权重文本到图像模型

根据 Artificial Analysis,Z‑Image Turbo 目前在 Artificial Analysis Image Arena 中的所有开源权重图像模型中排名 #1

为何领先

  • 在阿里云上仅需 $5 / 1k 图像
  • 只需 16 GB 内存即可在消费级硬件上运行。
  • Apache 2.0 开源许可证。
  • 一款 6B 的强大模型,证明高质量不一定需要高成本。

Z‑Image Turbo ranking

✨ Community Spotlights

Portrait Photography: BEYOND REALITY Z IMAGE 1.0 from Nurburgring

在 Z‑Image‑Turbo 的基础上微调,该模型在保持模拟胶片美感的同时,优化了皮肤纹理和环境细节。提供 BF16FP8 两种版本(后者可在 8 GB VRAM 硬件上运行)。

👉 在此尝试

📬 想了解更多?保持更新

每周我们为您呈现:

  • 新模型发布与升级
  • AI 研究突破
  • 您可以立即使用的开源工具
  • 激励人心的社区亮点

👉 订阅《同义周报》,永不错过任何发布
Subscribe Now →

同义实验室 是阿里巴巴集团旗下的人工智能与基础模型研究机构,专注于 AI 模型在各领域的研究、开发与创新应用。 同义实验室涵盖大语言模型(LLM)、多模态理解与生成、视觉 AIGC、语音技术等方向。

Back to Blog

相关文章

阅读更多 »

Nano Banana 是如何得名的

你已经因为它的病毒式编辑功能而熟知 https://blog.google/products/gemini/nano-banana-tips/。但是,Google DeepMind 最受欢迎的模型之一是如何…