2025년 12월 19일 | The Tongyi Weekly: Tongyi Lab의 최첨단 AI 주간 요약
Source: Dev.to
안녕하세요, 창작자와 빌더 여러분,
이번 주는 음성 및 비디오 AI 분야에서 획기적인 돌파구가 풍성하게 수확된 한 주였습니다. Wan2.6 — 일관된 외모와 목소리, 그리고 영화 같은 스토리텔링으로 캐릭터에 생명을 불어넣는 우리의 시네마틱 멀티모달 생성 모델—부터 Fun‑ASR 및 Fun‑CosyVoice 3에 이르기까지, 이제 오픈소스 버전으로 제공되는 우리의 음성 모델들은 표현력 있는 AI의 미래가 그 어느 때보다 가까워졌음을 보여줍니다.
함께 살펴보겠습니다.
👉 Tongyi Weekly에 구독하고 새로운 소식을 놓치지 마세요
지금 구독하기 →
📣 Model Release & Updates
Introducing Wan2.6 – The Cinematic Multimodal Generation Model
- Starring – Cast characters from reference videos into new scenes. Supports human or human‑like figures, enabling complex multi‑person and human‑object interactions with appearance and voice consistency.
- Intelligent Multi‑shot Narrative – Turn simple prompts into auto‑storyboarded, multi‑shot videos. Maintains visual consistency and upgrades storytelling from single shots to rich narratives.
- Native A/V Sync – Generate multi‑speaker dialogue with natural lip‑sync and studio‑quality audio. It doesn’t just look real – it sounds real.
- Cinematic Quality – 15 s 1080p HD generation with comprehensive upgrades to instruction adherence, motion physics, and aesthetic control.
- Advanced Image Synthesis & Editing – Deliver cinematic photorealism with precise control over lens and lighting. Supports multi‑image referencing for commercial‑grade consistency and faithful aesthetic transfer.
- Storytelling with Structure – Generate interleaved texts and images powered by real‑world knowledge and reasoning capabilities, enabling hierarchical and structured visual narratives.
🔗 Try Wan 2.6 yourself – 150 free credits every day!
🔗 API Documentation
Fun‑ASR Upgrade – Noise‑Robust, Multilingual, Customizable ASR
We’re thrilled to unveil the newest evolution of Fun‑ASR, our enterprise‑grade end‑to‑end Automatic Speech Recognition model – now more noise‑robust, more multilingual, and more customizable than ever. We’re also releasing the lightweight Fun‑ASR‑Nano (0.8 B) model as open source.
Major Upgrades in Fun‑ASR
- 93 % accuracy in real‑world noisy environments such as conferences, metro stations, and in‑car speech.
- Lyric recognition breakthrough – accurately transcribes vocals even with strong background music or rap‑style delivery.
- 31 languages supported, with enhanced performance for East Asian & Southeast Asian languages (e.g., Japanese, Vietnamese).
- 7 major Chinese dialect groups and 26 regional accents covered with high precision.
- RAG‑based customization – hotword limit raised from 1 000 to 10 000 without compromising accuracy.
Fun‑ASR‑Nano (0.8 B) – Open Source
Lightweight yet highly noise‑resistant, optimized for compute‑sensitive scenarios, edge devices, and low‑latency real‑time recognition.
🔗 Now available on:
Fun‑CosyVoice 3 – The Next‑Generation Text‑to‑Speech Model
Fun‑CosyVoice 3 is now faster, more expressive, and officially open‑sourced.
What’s New
- 50 % lower first‑token latency with full bidirectional streaming TTS, enabling true real‑time “type‑to‑speech” experiences.
- Improved Chinese–English code‑switching – WER reduced by 56.4 %.
- Enhanced zero‑shot voice cloning – replicate a voice using only 3 s of audio, with better consistency and emotion control.
- 30+ timbres, 9 languages, 18 Chinese dialect accents, and 9 emotion styles, plus cross‑lingual voice cloning capability.
- Benchmark gains – 26 % relative reduction in character error rate (CER) on challenging test‑hard scenarios; several metrics approach human‑recorded speech quality.
Fun‑CosyVoice 3 (0.5 B) – Open Source
A lightweight 0.5 B‑parameter version with zero‑shot voice cloning and local deployment support, outperforming popular open‑source TTS models across evaluated metrics.
🔗 Explore & Download
ice3-0.5B)
Qwen Code v0.5.0 – 더 똑똑한 AI 코딩 어시스턴트
새로운 기능
- VSCode 통합 – VSCode 배포 패키지에 번들된 CLI와 향상된 크로스‑플랫폼 호환성.
- 네이티브 TypeScript SDK – Node/TS 프로젝트와 원활하게 통합.
- 스마트 세션 관리 – 대화를 자동 저장하고 이어서 진행.
- OpenAI‑호환 추론 모델 지원 (예: DeepSeek V3.2, Kimi‑K2 등).
- SDK가 호스팅하는 서버를 통한 맞춤형 도구 제어.
- 러시아어 지원 – 러시아어 UI 옵션을 포함한 국제화.
- 향상된 UX – 오디오 알림을 위한 터미널 벨 및 세션 재개 명령 표시.
- 테스트 및 안정성 – 다수의 버그 수정 및 안정성 향상.
(이 릴리즈 노트는 이 발췌 이후에도 계속됩니다.)
🚀 새 릴리스 하이라이트
- Ubuntu 셸 지원
- 더 빠른 SDK 타임아웃
- 견고한 테스트 안정성
터미널에서 시작하기
npm install -g @qwen-code/qwen-code
Source:
✨ 커뮤니티 스포트라이트
어린이 스토리텔링: COOLKIDS LoRA – by Clumsy_Trainer
이 Z‑Image‑Turbo LoRA는 어린이 일러스트의 기발함, 따뜻함, 시각적 매력을 포착합니다 — 그림책, 교육 콘텐츠, 혹은 애니메이션 단편에 완벽합니다. 생성된 이미지들은 마치 사랑받는 동화책의 한 페이지처럼 느껴집니다.
초상화 폴리셔: AWPortrait‑Z – by Shakker‑Labs
AWPortrait‑Z는 Z‑Image의 초상화 기능을 다듬는 네이티브 노이즈 감소 LoRA입니다. “리라이트” 조명부터 실제 피부 질감까지, 캐릭터 생성에 있어 품질을 크게 향상시켜 줍니다.
Z‑Image 워크플로우 걸작 – by luneva
이 워크플로우는 전경과 배경 모두에서 픽셀 수준의 사실적인 디테일을 놀라운 속도로 생성합니다. 무리한 연산이나 업스케일링이 필요 없으며, 순수하고 고밀도 현실감을 제공합니다. 커뮤니티가 반드시 시도해 볼 만한 작품입니다.
🔥 다가오는 이벤트
WAN MUSE+ 시즌 3 “IN CHARACTER” – 현재 진행 중
우리는 WAN MUSE+ 시즌 3: “IN CHARACTER” 를 출시하게 되어 기쁩니다 — 정체성, 서사, 그리고 AI 표현을 탐구하도록 초대하는 글로벌 크리에이티브 챌린지입니다.
- 상금 풀: 최대 $14,000
- 수상 부문:
- 최우수 내러티브
- 최우수 애니메이션 단편
- 최우수 비주얼
- 최우수 PSA
- 후보 및 특별 영감상
참가 방법
- TikTok, Instagram, X, 또는 YouTube에 게시합니다.
- 해시태그
#incharacter #wanmuse #wan를 사용합니다.
AIGC 플랫폼: SeaArt.Ai, WaveSpeedAI, Tensor.Art
🔗 전체 세부 정보
📬 더 원하나요? 최신 소식 받아보세요
매주 제공되는 내용:
- 새로운 모델 출시 및 업그레이드
- AI 연구 혁신
- 오늘 바로 사용할 수 있는 오픈소스 도구
- 영감을 주는 커뮤니티 하이라이트
👉 Tongyi Weekly 구독하고 모든 출시 소식을 놓치지 마세요.
지금 구독 →
Tongyi Lab 소개
Tongyi Lab은 알리바바 그룹 산하의 인공지능 및 기초 모델 연구 기관입니다. 우리는 대형 언어 모델(LLM), 멀티모달 이해 및 생성, 시각 AIGC, 음성 기술 등 다양한 분야에서 AI의 연구, 개발 및 혁신적인 적용에 집중하고 있습니다.


