[Paper] DEER: 포괄적이고 신뢰할 수 있는 딥 리서치 전문가 보고서를 위한 벤치마크
대규모 언어 모델(LLMs)이 발전함에 따라, 딥 리서치 시스템은 다단계 추론 및 증거 기반 합성을 통해 전문가 수준의 보고서를 생성할 수 있지만, eval...
대규모 언어 모델(LLMs)이 발전함에 따라, 딥 리서치 시스템은 다단계 추론 및 증거 기반 합성을 통해 전문가 수준의 보고서를 생성할 수 있지만, eval...
Medical Entity Recognition (MedER)은 의료 코퍼스에서 의미 있는 엔터티를 추출하기 위한 필수적인 NLP 작업입니다. 요즘은 MedER 기반 연구 결과가 …
고대 텍스트에 대한 이해는 고고학 및 중국 역사와 문명 이해에 중요한 역할을 합니다. 대규모 언어 모델의 급속한 발전은.
Computational Affective Science와 Computational Social Science 분야의 연구는 사람, 감정, 행동 및 건강에 관한 다양한 연구 질문을 탐구합니다.
User-generated content (UGC)는 맞춤법 오류부터 속어, 문자 반복과 같은 표현 선택에 이르기까지 비표준 언어의 빈번한 사용이 특징입니다.
우리는 질문 응답을 위한 신경망에서 불확실성을 정량화하는 수단으로 베이지안 추론을 탐구합니다. 아이리스 데이터셋을 사용한 다층 퍼셉트론부터 시작하여…
전체 분야가 하나의 돌파구를 쫓기 위해 서두르다가 배운 모든 것을 잊어버리면 어떻게 될까요? AI 커뮤니티가 집단적 기억상실을 겪고 있습니다. 우리는…
엔드-투-엔드(E2E) 자동 음성 인식(ASR) 모델은 일반 전사에서는 뛰어나지만, 희귀하거나 보지 못한 named entities(예:…)를 인식하는 데 어려움을 겪습니다.
Streaming Speech-to-Text Translation (StreamST)은 들어오는 음성에 맞춰 동시에 번역을 생성해야 하므로, 엄격한 지연 시간 제약과 높은 정확도 요구를 갖는다.
SWE-bench와 같은 벤치마크는 Large Language Models (LLMs)의 repository‑level 소프트웨어 엔지니어링 작업에 대한 평가를 표준화했습니다. 그러나 이러한 노력…
대형 언어 모델(LLMs)은 실제 코드 생성에 점점 더 많이 적용되고 있으며, 기능적 정확성만으로는 신뢰할 수 있는 배포에 충분하지 않습니다,…
명시적 추론 능력을 갖춘 Large language models (LLMs)은 수학적 추론에 뛰어나지만 여전히 잘못된 계산과 같은 process errors를 범합니다.