Kakao 首次公开多模态 AI ‘카나나‑o’ API,扩大应用

发布: (2026年2月22日 GMT+8 11:42)
4 分钟阅读

Source: Byline Network

Kakao 多模态 AI “Kanana‑o” API 首次公开

Kakao 首次公开其自主研发的多模态 AI 模型的应用程序接口(API)。虽然模型已经以开源形式发布,但此次是通过实际使用功能实现的案例,推动 Kanana 模型大众化的首次尝试。

封闭 Beta 测试(CBT)

  • 时间:5 月 27 日至 5 月 27 日(※ 期间标注相同,实际时间请以 Kakao 官方博客为准)
  • 对象:开发者、学生、创业公司、研究者等“想利用 Kanana‑o 实现具体创意”的人群
  • 筛选标准:具备具体的使用场景和技术实现能力,并能够提供积极反馈

被选中的人员在 Beta 测试期间每天可以按规定次数调用 API 进行测试。

Kanana‑o 介绍

Kanana‑o 是 Kakao 于 2023 年 5 月发布的统一多模态语言模型。它能够同时理解文本、语音、图像,并实时给出答案。该模型整合了此前专注图像处理的 Kanana‑v 与专注音频理解·生成的 Kanana‑a 两个模型而开发。

Kanana‑o 与全球竞争模型基准性能比较(提供=Kakao)

性能与基准

  • 2023 年 12 月通过指令执行能力提升以及自建数据集完成多任务训练,实现性能更新
  • 除文本外,在语音输出上也能实现自然、丰富的表达
  • 对韩语语境的理解度高
  • 在语音·图像指令执行基准等方面,获得与全球前沿模型相当或更高的评价

在 Kakao 业绩发布电话会议(12 日)上,精神아 代表强调:“Kanana Omni 目前在国内多模态模型同级别中创下最高基准,计划在今年上半年完成模型升级,并扩大实际 AI 服务的应用。”

公布 API 的原因

  • 促进商业化:以往的开源模型需要自行承担基础设施费用和配置过程,而 API 只需简单对接即可用于服务
  • 提升可访问性:GPU 等基础设施费用由 Kakao 承担,降低开发者负担
  • 多样化服务开发:多模态功能将激活新服务和应用的开发

未来展望

Kakao 计划在今年上半年将多模态功能引入自有服务,实现不仅使用文本,还能通过语音和图像进行交流的服务。这将提升用户体验,并在各种业务场景中扩大 AI 的应用,预期将产生积极影响。

0 浏览
Back to Blog

相关文章

阅读更多 »

数字资产基本法,民主党会作出怎样的选择?

数字资产基本法与政界、金融界的争论 数字资产基本法、虚拟资产二阶段法案的未来命运,政界和金融界的利益关系错综复杂。尤其是对更民主党将以何种方向提出法案,受到高度关注。更民主党数字资产任务组(Task Force TF)的折中方案——TF目前……