카카오, 멀티모달 AI ‘카나나-o’ API 첫 공개…활용 확대 나선다
Source: Byline Network
카카오 멀티모달 AI ‘카나나‑o’ API 첫 공개
카카오가 자체 개발한 멀티모달 AI 모델의 응용 프로그래밍 인터페이스(API)를 처음으로 공개한다. 이미 오픈소스로 모델을 공개했지만, 실제로 이용해 기능으로 구현하는 사례를 늘리는 등 카나나 모델의 대중화를 위한 첫 시도다.
클로즈드 베타 테스트 (CBT)
- 일정: 5월 27일부터 5월 27일까지 (※ 기간이 동일하게 표기된 것으로 보이며, 실제 일정은 카카오 공식 블로그를 확인 필요)
- 대상: 개발자, 학생, 스타트업, 연구자 등 “Kanana‑o를 활용해 구체적인 아이디어를 실현해보고 싶은” 사람
- 선정 기준: 구체적인 활용 시나리오와 기술적 구현 역량을 갖추고, 적극적인 피드백 제공 가능 여부
CBT에 선정된 사람은 베타 테스트 기간 동안 매일 정해진 횟수만큼 API를 테스트할 수 있다.
카나나‑o 소개
카나나‑o는 카카오가 2023년 5월에 공개한 통합 멀티모달 언어 모델이다. 텍스트, 음성, 이미지를 동시에 이해하고 실시간으로 답변한다. 기존에 이미지 처리에 특화된 Kanana‑v와 오디오 이해·생성에 특화된 Kanana‑a 모델을 통합해 개발되었다.

성능 및 벤치마크
- 2023년 12월에 지시 이행 능력 고도화 및 자체 구축 데이터셋을 통한 다양한 과업 수행으로 성능 업데이트
- 텍스트뿐 아니라 음성 출력에서도 자연스럽고 풍부한 표현 가능
- 한국적 맥락에 대한 높은 이해도 확보
- 음성·이미지 기반 지시 이행 벤치마크 등에서 글로벌 프론티어 모델과 유사하거나 더 높은 평가 획득
카카오 실적 발표 컨퍼런스 콜(12일)에서 정신아 대표는 “카나나 옴니는 현재 국내 멀티모달 모델 동급 중 최고의 벤치마크를 기록하고 있고, 올해 상반기 중 모델 고도화를 거쳐 실제 AI 서비스로의 적용을 확대할 예정”이라고 강조했다.
API 공개 이유
- 상용화 촉진: 기존 오픈소스 모델은 구동을 위해 인프라 비용·설정 과정이 필요했지만, API는 간단한 연동만으로 서비스에 적용 가능
- 접근성 향상: GPU 등 인프라 비용을 카카오가 부담해 개발자가 부담을 줄일 수 있음
- 다양한 서비스 개발: 멀티모달 기능을 활용한 새로운 서비스와 애플리케이션 개발이 활성화될 전망
향후 전망
카카오는 올 상반기 자체 서비스에 멀티모달 기능을 도입해 텍스트뿐 아니라 음성과 이미지까지 이용해 소통할 수 있는 서비스를 구현할 계획이다. 이는 사용자 경험을 한 단계 끌어올리고, 다양한 비즈니스 시나리오에서 AI 활용을 확대하는 데 기여할 것으로 기대된다.