2025년 12월 19일 | The Tongyi Weekly: Tongyi Lab의 최첨단 AI 주간 요약

발행: (2025년 12월 19일 오후 04:47 GMT+9)
8 min read
원문: Dev.to

Source: Dev.to

안녕하세요, 창작자와 빌더 여러분,

이번 주는 음성 및 비디오 AI 분야에서 획기적인 돌파구가 풍성하게 수확된 한 주였습니다. Wan2.6 — 일관된 외모와 목소리, 그리고 영화 같은 스토리텔링으로 캐릭터에 생명을 불어넣는 우리의 시네마틱 멀티모달 생성 모델—부터 Fun‑ASRFun‑CosyVoice 3에 이르기까지, 이제 오픈소스 버전으로 제공되는 우리의 음성 모델들은 표현력 있는 AI의 미래가 그 어느 때보다 가까워졌음을 보여줍니다.

함께 살펴보겠습니다.

👉 Tongyi Weekly에 구독하고 새로운 소식을 놓치지 마세요
지금 구독하기 →

📣 Model Release & Updates

Introducing Wan2.6 – The Cinematic Multimodal Generation Model

  • Starring – Cast characters from reference videos into new scenes. Supports human or human‑like figures, enabling complex multi‑person and human‑object interactions with appearance and voice consistency.
  • Intelligent Multi‑shot Narrative – Turn simple prompts into auto‑storyboarded, multi‑shot videos. Maintains visual consistency and upgrades storytelling from single shots to rich narratives.
  • Native A/V Sync – Generate multi‑speaker dialogue with natural lip‑sync and studio‑quality audio. It doesn’t just look real – it sounds real.
  • Cinematic Quality – 15 s 1080p HD generation with comprehensive upgrades to instruction adherence, motion physics, and aesthetic control.
  • Advanced Image Synthesis & Editing – Deliver cinematic photorealism with precise control over lens and lighting. Supports multi‑image referencing for commercial‑grade consistency and faithful aesthetic transfer.
  • Storytelling with Structure – Generate interleaved texts and images powered by real‑world knowledge and reasoning capabilities, enabling hierarchical and structured visual narratives.

🔗 Try Wan 2.6 yourself – 150 free credits every day!
🔗 API Documentation

Fun‑ASR Upgrade – Noise‑Robust, Multilingual, Customizable ASR

We’re thrilled to unveil the newest evolution of Fun‑ASR, our enterprise‑grade end‑to‑end Automatic Speech Recognition model – now more noise‑robust, more multilingual, and more customizable than ever. We’re also releasing the lightweight Fun‑ASR‑Nano (0.8 B) model as open source.

Major Upgrades in Fun‑ASR

  • 93 % accuracy in real‑world noisy environments such as conferences, metro stations, and in‑car speech.
  • Lyric recognition breakthrough – accurately transcribes vocals even with strong background music or rap‑style delivery.
  • 31 languages supported, with enhanced performance for East Asian & Southeast Asian languages (e.g., Japanese, Vietnamese).
  • 7 major Chinese dialect groups and 26 regional accents covered with high precision.
  • RAG‑based customization – hotword limit raised from 1 000 to 10 000 without compromising accuracy.

Fun‑ASR‑Nano (0.8 B) – Open Source

Lightweight yet highly noise‑resistant, optimized for compute‑sensitive scenarios, edge devices, and low‑latency real‑time recognition.

🔗 Now available on:

Fun‑CosyVoice 3 – The Next‑Generation Text‑to‑Speech Model

Fun‑CosyVoice 3 is now faster, more expressive, and officially open‑sourced.

What’s New

  • 50 % lower first‑token latency with full bidirectional streaming TTS, enabling true real‑time “type‑to‑speech” experiences.
  • Improved Chinese–English code‑switching – WER reduced by 56.4 %.
  • Enhanced zero‑shot voice cloning – replicate a voice using only 3 s of audio, with better consistency and emotion control.
  • 30+ timbres, 9 languages, 18 Chinese dialect accents, and 9 emotion styles, plus cross‑lingual voice cloning capability.
  • Benchmark gains – 26 % relative reduction in character error rate (CER) on challenging test‑hard scenarios; several metrics approach human‑recorded speech quality.

Fun‑CosyVoice 3 (0.5 B) – Open Source

A lightweight 0.5 B‑parameter version with zero‑shot voice cloning and local deployment support, outperforming popular open‑source TTS models across evaluated metrics.

🔗 Explore & Download

ice3-0.5B)

Qwen Code v0.5.0 – 더 똑똑한 AI 코딩 어시스턴트

새로운 기능

  • VSCode 통합 – VSCode 배포 패키지에 번들된 CLI와 향상된 크로스‑플랫폼 호환성.
  • 네이티브 TypeScript SDK – Node/TS 프로젝트와 원활하게 통합.
  • 스마트 세션 관리 – 대화를 자동 저장하고 이어서 진행.
  • OpenAI‑호환 추론 모델 지원 (예: DeepSeek V3.2, Kimi‑K2 등).
  • SDK가 호스팅하는 서버를 통한 맞춤형 도구 제어.
  • 러시아어 지원 – 러시아어 UI 옵션을 포함한 국제화.
  • 향상된 UX – 오디오 알림을 위한 터미널 벨 및 세션 재개 명령 표시.
  • 테스트 및 안정성 – 다수의 버그 수정 및 안정성 향상.

(이 릴리즈 노트는 이 발췌 이후에도 계속됩니다.)

🚀 새 릴리스 하이라이트

  • Ubuntu 셸 지원
  • 더 빠른 SDK 타임아웃
  • 견고한 테스트 안정성

터미널에서 시작하기

npm install -g @qwen-code/qwen-code

🔗 Full changelog

Source:

✨ 커뮤니티 스포트라이트

어린이 스토리텔링: COOLKIDS LoRAby Clumsy_Trainer

이 Z‑Image‑Turbo LoRA는 어린이 일러스트의 기발함, 따뜻함, 시각적 매력을 포착합니다 — 그림책, 교육 콘텐츠, 혹은 애니메이션 단편에 완벽합니다. 생성된 이미지들은 마치 사랑받는 동화책의 한 페이지처럼 느껴집니다.

👉 여기서 시도해 보세요

초상화 폴리셔: AWPortrait‑Zby Shakker‑Labs

AWPortrait‑Z는 Z‑Image의 초상화 기능을 다듬는 네이티브 노이즈 감소 LoRA입니다. “리라이트” 조명부터 실제 피부 질감까지, 캐릭터 생성에 있어 품질을 크게 향상시켜 줍니다.

👉 여기서 시도해 보세요

Z‑Image 워크플로우 걸작 – by luneva

이 워크플로우는 전경과 배경 모두에서 픽셀 수준의 사실적인 디테일을 놀라운 속도로 생성합니다. 무리한 연산이나 업스케일링이 필요 없으며, 순수하고 고밀도 현실감을 제공합니다. 커뮤니티가 반드시 시도해 볼 만한 작품입니다.

👉 여기서 시도해 보세요

🔥 다가오는 이벤트

WAN MUSE+ 시즌 3 “IN CHARACTER” – 현재 진행 중

우리는 WAN MUSE+ 시즌 3: “IN CHARACTER” 를 출시하게 되어 기쁩니다 — 정체성, 서사, 그리고 AI 표현을 탐구하도록 초대하는 글로벌 크리에이티브 챌린지입니다.

  • 상금 풀: 최대 $14,000
  • 수상 부문:
    • 최우수 내러티브
    • 최우수 애니메이션 단편
    • 최우수 비주얼
    • 최우수 PSA
    • 후보 및 특별 영감상

참가 방법

  1. TikTok, Instagram, X, 또는 YouTube에 게시합니다.
  2. 해시태그 #incharacter #wanmuse #wan 를 사용합니다.

AIGC 플랫폼: SeaArt.Ai, WaveSpeedAI, Tensor.Art

🔗 전체 세부 정보

📬 더 원하나요? 최신 소식 받아보세요

매주 제공되는 내용:

  • 새로운 모델 출시 및 업그레이드
  • AI 연구 혁신
  • 오늘 바로 사용할 수 있는 오픈소스 도구
  • 영감을 주는 커뮤니티 하이라이트

👉 Tongyi Weekly 구독하고 모든 출시 소식을 놓치지 마세요.

지금 구독 →


Tongyi Lab 소개

Tongyi Lab은 알리바바 그룹 산하의 인공지능 및 기초 모델 연구 기관입니다. 우리는 대형 언어 모델(LLM), 멀티모달 이해 및 생성, 시각 AIGC, 음성 기술 등 다양한 분야에서 AI의 연구, 개발 및 혁신적인 적용에 집중하고 있습니다.

Back to Blog

관련 글

더 보기 »