Dec 26, 2025 | The Tongyi Weekly: Tongyi Lab의 최첨단 AI 주간 요약

발행: 3주 전 (2025년 12월 26일 오후 04:30 GMT+9)

7 min read

원문: Dev.to

Source: Dev.to

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

개요

2025년이 마무리됨에 따라, 여러분 각자의 창의성과 올해의 지원에 깊은 감사를 전하고 싶습니다. 여러분의 실험, 피드백, 그리고 뛰어난 창작물은 우리 열린 생태계의 심장 박동이었습니다.

연말의 마지막 선물로, 2025년 마지막 주에 탄생한 최신 모델과 도구들을 공유하게 되어 기쁩니다.

방금 출시된 내용을 살펴보겠습니다.

👉 Tongyi Weekly 구독하고 새로운 소식을 놓치지 마세요
지금 구독하기 →

Source: (원본 링크가 제공되지 않았습니다)

📣 모델 출시 및 업데이트

Qwen-Image-Layered 소개 – 네이티브 이미지 분해, 완전 오픈소스

주요 특징

포토샵 수준 레이어링 – 물리적으로 분리된 RGBA 레이어와 진정한 네이티브 편집 가능성.
프롬프트 제어 구조 – 3~10개의 레이어를 명시적으로 지정, 거친 레이아웃부터 세밀한 디테일까지.
무한 분해 – 레이어 안에 레이어를 계속 파고들어, 원하는 깊이까지 디테일을 구현.

시작하기

새로운 오픈소스 엔드‑투‑엔드 음성 모델: Fun‑Audio‑Chat

우리는 Fun‑Audio‑Chat을 오픈소스로 공개합니다 — 단순 챗봇을 넘어서는 엔드‑투‑엔드 음성 모델. 당신의 AI 음성 파트너:

공감형 – 감정, 톤, 의도를 이해합니다.
행동 지향형 – 음성 명령을 따라 작업을 수행합니다.
엔드‑투‑엔드 S2S 아키텍처 – 지연 시간 감소, 효율성 향상.
듀얼‑해상도 설계 – GPU 비용을 약 50 % 절감.
다중 벤치마크 리더 (OpenAudioBench, MMAU 등).

사용해 보기

새로운 Qwen3‑TTS 라인업: VoiceDesign & VoiceClone

음성을 만들고, 제어하고, 복제하세요 — 이전보다 더 빠르고 표현력이 풍부합니다.

VoiceDesign‑VD‑Flash

자유 형식 텍스트 지시(톤, 리듬, 감정, 페르소나)를 통한 완전 제어 가능한 음성 합성.
사전 설정된 음성 없음 – 나만의 독특한 보컬 아이덴티티를 디자인.
역할극 벤치마크에서 GPT‑4o‑mini‑tts 및 Gemini‑2.5‑pro를 능가.

VoiceClone‑VC‑Flash

3초의 오디오만으로 어떤 음성도 복제.
10개 이상의 언어(중국어, 영어, 일본어, 스페인어 등)로 음성 생성.
다국어 테스트에서 ElevenLabs 및 GPT‑4o‑Audio 대비 15 % 낮은 WER.
문맥을 고려한 억양으로 보다 자연스러운 전달.

지금 사용해 보기

Qwen‑Image‑Edit‑2511: 향상된 일관성 및 실제 이미지 편집

2511의 새로운 기능

그룹 사진 및 복잡한 장면에서 다중 인물 일관성 강화.
인기 커뮤니티 LoRA 내장 – 별도 튜닝 불필요.
산업 및 제품 디자인 생성 능력 향상.
이미지 드리프트 감소와 캐릭터·아이덴티티 일관성 크게 개선.
기하학적 추론 향상(구성선, 구조 편집 등).

신원 보존 초상 편집부터 고품질 다인물 합성, 실용적인 엔지니어링·디자인 워크플로까지, 2511은 이미지 편집을 한 단계 끌어올립니다.

지금 사용해 보기

🧩 Ecosystem Highlights

Z‑Image Turbo: 인공 분석 이미지 아레나에서 #1 오픈‑웨이트 텍스트‑투‑이미지 모델

Artificial Analysis에 따르면, Z‑Image Turbo는 인공 분석 이미지 아레나에서 모든 오픈‑웨이트 이미지 모델 중 #1에 올랐습니다.

선두 이유

알리바바 클라우드에서 $5 / 1k 이미지 비용.
16 GB 메모리만 있는 일반 소비자용 하드웨어에서도 실행 가능.
Apache 2.0 오픈‑소스 라이선스.
6B 규모의 모델로, 높은 품질이 높은 비용을 필요로 하지 않음을 증명.

Z‑Image Turbo ranking

✨ 커뮤니티 스포트라이트

인물 사진: BEYOND REALITY Z IMAGE 1.0 from Nurburgring

Z‑Image‑Turbo를 기반으로 파인‑튜닝된 이 모델은 아날로그 필름 미학을 유지하면서 피부 질감과 환경 디테일을 최적화합니다. BF16과 FP8 두 가지 형식으로 제공되며, FP8은 8 GB VRAM 하드웨어에서 실행됩니다.

👉 여기서 사용해 보기

📬 더 많은 정보를 원하나요? 최신 소식을 받아보세요

새로운 모델 출시 및 업그레이드
AI 연구 혁신
오늘 바로 사용할 수 있는 오픈‑소스 도구
영감을 주는 커뮤니티 하이라이트

👉 The Tongyi Weekly 구독하고 출시 소식을 절대 놓치지 마세요
지금 구독 →

Tongyi Lab은 Alibaba Group 산하의 연구 기관으로 인공지능 및 기초 모델에 전념하며, 다양한 분야에서 AI 모델의 연구, 개발 및 혁신적인 적용에 초점을 맞추고 있습니다. Tongyi Lab은 대형 언어 모델(LLMs), 멀티모달 이해 및 생성, 시각 AIGC, 음성 기술 등 다양한 영역을 포괄합니다.