[Paper] SCORE: 특이성, 컨텍스트 활용, 견고성, 그리고 레퍼런스 프리 LLM 평가
Large language models (LLMs)은 고위험(high‑stakes) 및 도메인 특화(domain‑specific) 환경에서 질문 응답(question answering) 및 의사결정(decision‑making)을 지원하기 위해 점점 더 많이 사용되고 있습니다. 예를 들어 자연 …
Large language models (LLMs)은 고위험(high‑stakes) 및 도메인 특화(domain‑specific) 환경에서 질문 응답(question answering) 및 의사결정(decision‑making)을 지원하기 위해 점점 더 많이 사용되고 있습니다. 예를 들어 자연 …
베트남어는 phonetic orthography를 가지고 있으며, 각 grapheme은 최대 하나의 phoneme에 대응하고 그 반대도 마찬가지이다. 이러한 높은 grapheme‑phoneme transparency를 활용하여…
GUI 기반 에이전트의 급속한 진화로 인해 기존의 CAPTCHA가 구식이 되었습니다. 이전 벤치마크인 OpenCaptchaWorld와 같은 것들은 기준선을 설정했지만…
프라이버시는 patient‑provider trust를 유지하는 인간의 권리입니다. Clinical notes는 환자의 개인적인 취약성과 개성을 포착하며, 이는 …
Computer-use agents (CUAs)는 지난 1년 동안 엄청난 진전을 이루었지만, 여전히 사용자의 원래 의도와 벗어나는 misaligned actions를 자주 만들어냅니다.
우리는 Next Concept Prediction (NCP)이라는, Next Token Prediction (NTP)을 기반으로 한 생성적 사전학습 패러다임을 제안한다. NCP는 이산적인 개념을 예측한다 that spa...
Planning은 현대 에이전트 시스템이 복잡하고 long‑horizon 과제를 탐색하는 데 있어 핵심 역량이 되었지만, 기존 접근 방식은 주로 …에 의존한다.
Chain-of-Thought 추론은 멀티모달 대형 언어 모델(MLLMs)의 해석 가능성을 높이기 위해 널리 사용되지만, 생성된 ...의 충실도는 아직 충분히 보장되지 않는다.
Tokenization은 터키어와 같이 생산적인 교착이 특징인 형태학적으로 풍부한 언어(morphologically rich languages, MRLs)에서 neural language modeling을 위한 중요한 설계 선택입니다.
우리는 대형 언어 모델(LLM)의 다목적 정렬에서 지속적인 실패 모드를 연구한다: 훈련이 목표의 일부 집합에 대해서만 성능을 향상시킨다…
멀티턴 탈옥은 안전 정렬 챗봇에 대한 실제 위협 모델을 포착하며, 단일턴 공격은 단지 특수한 경우에 불과합니다. 그러나 기존 접근 방식은 …
인지 과학에서 중심적인 질문은 개념적 표현이 일반화를 지원하기 위해 공유된 매니폴드로 수렴하는지, 아니면 orthogo...