[Paper] MTRAG-UN: 다중 턴 RAG 대화의 오픈 과제에 대한 벤치마크
우리는 MTRAG‑UN을 소개합니다. 이는 대형 언어 모델의 인기 있는 활용인 multi‑turn retrieval augmented generation의 열린 과제를 탐구하기 위한 benchmark입니다. 우리는 …
우리는 MTRAG‑UN을 소개합니다. 이는 대형 언어 모델의 인기 있는 활용인 multi‑turn retrieval augmented generation의 열린 과제를 탐구하기 위한 benchmark입니다. 우리는 …
다국어 대형 언어 모델(Large Language Model, LLM) 평가의 신뢰성은 현재 번역된 벤치마크의 일관되지 않은 품질 때문에 손상되고 있습니다. 기존의 …
수메르어 전사(전사법)는 라틴 문자로 태블릿에 대한 학자의 해석을 나타내는 전통적인 체계입니다. 선구적인 디지털 Assyr...
우리는 language model의 parameters에 저장된 세계 지식에 접근하기 위한 추론을 연구합니다. 예를 들어, 캔버라가 호주의 수도라는 것을 기억하는 것이 …
오픈소스 네이티브 GUI 에이전트는 여전히 장기 탐색 작업에서 클로즈드소스 시스템에 뒤처진다. 이 격차는 두 가지 제한에서 비롯된다: 고‑q…
지난 20년 동안, 질문 응답(Question Answering, QA) 시스템을 설계하고 구현하는 데 있어 상당한 진전이 이루어졌습니다. 그러나 복잡한 질문을 다루는...
대형 언어 모델(LLMs)은 직장 커뮤니케이션을 “전문화”하기 위해 점점 더 많이 활용되고 있으며, 이는 종종 언어 정체성을 희생시킵니다. 우리는 ‘Cultu…’ 를 소개합니다.
객체 환각은 대형 비전-언어 모델(LVLMs)에서 중요한 문제로, 출력에 입력 이미지에 존재하지 않는 객체가 포함되는 경우를 말합니다. 자연스러운…
Instruction-following benchmarks는 여전히 주로 영어 중심이며, 수억 명에 달하는 인도어 사용자를 위한 중요한 평가 격차를 남기고 있습니다.
소형 언어 모델(SLM)은 비용, 지연 시간, 적응성 측면에서 매력적인 장점을 제공하지만, 지금까지 장기적인 소프트웨어…
우리는 모든 모달리티에서 late interaction을 위한 효율적인 multi-vector retrieval을 연구한다. late interaction은 정보 검색에서 지배적인 패러다임으로 부상했다.
Embodied LLMs는 로봇에 고수준 작업 추론 능력을 부여하지만, 무엇이 잘못됐는지 혹은 그 이유를 반성할 수 없으며, 이로 인해 배포가 일련의 독립적인 …