Kakao 首次公开多模态 AI ‘카나나‑o’ API,扩大应用
Source: Byline Network
Kakao 多模态 AI “Kanana‑o” API 首次公开
Kakao 首次公开其自主研发的多模态 AI 模型的应用程序接口(API)。虽然模型已经以开源形式发布,但此次是通过实际使用功能实现的案例,推动 Kanana 模型大众化的首次尝试。
封闭 Beta 测试(CBT)
- 时间:5 月 27 日至 5 月 27 日(※ 期间标注相同,实际时间请以 Kakao 官方博客为准)
- 对象:开发者、学生、创业公司、研究者等“想利用 Kanana‑o 实现具体创意”的人群
- 筛选标准:具备具体的使用场景和技术实现能力,并能够提供积极反馈
被选中的人员在 Beta 测试期间每天可以按规定次数调用 API 进行测试。
Kanana‑o 介绍
Kanana‑o 是 Kakao 于 2023 年 5 月发布的统一多模态语言模型。它能够同时理解文本、语音、图像,并实时给出答案。该模型整合了此前专注图像处理的 Kanana‑v 与专注音频理解·生成的 Kanana‑a 两个模型而开发。

性能与基准
- 2023 年 12 月通过指令执行能力提升以及自建数据集完成多任务训练,实现性能更新
- 除文本外,在语音输出上也能实现自然、丰富的表达
- 对韩语语境的理解度高
- 在语音·图像指令执行基准等方面,获得与全球前沿模型相当或更高的评价
在 Kakao 业绩发布电话会议(12 日)上,精神아 代表强调:“Kanana Omni 目前在国内多模态模型同级别中创下最高基准,计划在今年上半年完成模型升级,并扩大实际 AI 服务的应用。”
公布 API 的原因
- 促进商业化:以往的开源模型需要自行承担基础设施费用和配置过程,而 API 只需简单对接即可用于服务
- 提升可访问性:GPU 等基础设施费用由 Kakao 承担,降低开发者负担
- 多样化服务开发:多模态功能将激活新服务和应用的开发
未来展望
Kakao 计划在今年上半年将多模态功能引入自有服务,实现不仅使用文本,还能通过语音和图像进行交流的服务。这将提升用户体验,并在各种业务场景中扩大 AI 的应用,预期将产生积极影响。