[Paper] 반짝이는 것이 모두 금은 아니다: Reference-Free Counterfactual Financial Misinformation Detection을 위한 Benchmark
우리는 현실적인 뉴스 환경에서 재무 허위 정보를 평가하기 위한 대형 언어 모델용 벤치마크인 RFC Bench를 소개합니다. RFC Bench는 단락 수준에서 작동합니다…
우리는 현실적인 뉴스 환경에서 재무 허위 정보를 평가하기 위한 대형 언어 모델용 벤치마크인 RFC Bench를 소개합니다. RFC Bench는 단락 수준에서 작동합니다…
Language models는 수학 문제 해결부터 open-domain question answering에 이르기까지 다양한 작업에서 효과적이 되었습니다. 그러나 여전히 실수를 저지릅니다, ...
우리는 기존 토론을 기반으로, 원래는 reply trees 구조로 되어 있는 다자간 대화를 생성하기 위한 플랫폼인 LLMberjack을 소개합니다. 이 시스템은…
대규모 언어 모델(LLMs)은 사전 학습(pre‑training) 동안 방대한 양의 파라메트릭 지식을 인코딩합니다. 세계 지식이 변화함에 따라 효과적인 배포는 점점 더 …
사용자를 대신해 그래픽 인터페이스와 상호작용하는 GUI agents는 실용적인 AI assistants를 위한 유망한 방향을 나타냅니다. 그러나 이러한 agents를 훈련하는 것은…
언어 모델은 종종 의미적 관련성과 무관하게 입력의 특정 위치에 있는 정보를 사용하는 경향을 보입니다. 위치 편향은 …
최근 사람들은 고통을 겪으며 개방형(open) 및 지식 집약적(knowledge-intensive) 작업에서 LLMs의 신뢰성 격차를 점점 더 인식하게 되었고, 따라서 검색 기반(search-augmented)…
대형 언어 모델(LLMs)에서 발생하는 환각을 완화하기 위해, 우리는 프롬프트에 의해 유발되는 오류에 초점을 맞춘 프레임워크를 제안합니다. 우리의 방법은 체인 스타일 k...
대형 멀티모달 모델(LMMs)은 체인‑오브‑소트(Chain‑of‑Thought, CoT)를 통해 비디오 추론에서 인상적인 능력을 보여주었습니다. 그러나 그들의 추론의 견고성은…
생성 모델링을 이산 데이터(텍스트)를 위한 자동회귀 접근법과 연속 데이터(이미지)를 위한 확산 접근법으로 양분하는 것은 …
제가 처음에 믿었던 것 깊이 파고들기 전에, 저는 몇 가지를 암묵적으로 믿고 있었습니다: - 만약 attention head가 특정 token에 지속적으로 주의를 기울인다면, 그 token은…
멀티 에이전트 시스템 내에서의 emergent communication 분야는 자율 에이전트가 명시적인 지시 없이 독립적으로 커뮤니케이션 전략을 개발할 수 있는 방식을 연구한다.