벡터 검색을 넘어: GraphRAG가 LLM의 다음 경계가 되는 이유
벡터 검색을 넘어: GraphRAG가 LLM의 차세대 프론티어인 이유 지난 1년 동안 LLM을 보강하는 산업 표준은 Retrieval‑Augmented Generation이었습니다.
벡터 검색을 넘어: GraphRAG가 LLM의 차세대 프론티어인 이유 지난 1년 동안 LLM을 보강하는 산업 표준은 Retrieval‑Augmented Generation이었습니다.
Test-time scaling (TTS)은 추론 중에 추가 연산을 할당함으로써 대형 언어 모델의 성능을 향상시키는 효과적인 접근법이 되었습니다. H...
Context window 확장은 종종 LLM의 단순한 기능 업그레이드로 간주되지만, 우리는 이것이 다중 에이전트 social dilemmas에서 체계적으로 실패한다는 것을 발견했습니다.
최근 추론 시 학습(inference-time learning)의 발전으로 LLM이 Text-to-SQL 작업에서 추론 능력이 향상되었지만, 현재 솔루션은 여전히 m...에 대해 좋은 성능을 내는 데 어려움을 겪고 있다.
자유 텍스트 형태의 심장 자기공명(CMR) 보고서를 감사 가능한 구조화된 데이터로 변환하는 것은 코호트 구성, 장기 큐레이션, 그리고 …에 있어 여전히 병목 현상으로 남아 있습니다.
최근 바이트 수준 언어 모델(LM)은 서브워드 어휘에 의존하지 않으면서 토큰 수준 모델의 성능과 일치하지만, 그 유용성은 slo...
Mechanistic interpretability 논문들은 점점 인과적 어휘를 사용하고 있다: circuits, mediators, causal abstraction, monosemanticity. 이러한 주장들은 명시적인 i...
툴을 호출하는 에이전트가 잘못된 툴을 선택하면, 실패는 실행될 때까지 보이지 않는다: 이메일이 전송되고, 회의가 놓치게 된다. Probing 12 instruction-t
대규모 언어 모델에서 안전하고 정책을 준수하는 출력을 보장하려면 여러 안전 차원에 걸쳐 확장 가능한 실시간 콘텐츠 검토가 필요합니다. Howev...
Large language models은 일반적으로 monolithic 시스템으로 배포되며, 애플리케이션이 좁은 범위의 기능만 필요하더라도 전체 모델을 요구합니다, 예를 들어…
대형 언어 모델(LLMs)은 과학 및 수학 문제를 해결하는 데 강력한 능력을 보여주지만, 유효하고 도전적인 …
많은 배포에서는 관련 언어, 분야, 혹은 규제 체계에 대한 라벨이 붙은 benchmark가 존재하기 전에 후보 candidate language model들의 안전성을 비교해야 합니다. 우리는...
검증 가능한 보상을 이용한 강화 학습(RLVR)은 결정론적 검증 덕분에 추론 능력을 향상시키는 주요 패러다임이 된다.
Large language models (LLMs)은 점점 더 인터랙티브 에이전트로 사용되고 있지만, 장기 의사결정을 위해 이를 최적화하는 것은 현재… 때문에 여전히 어렵다.
우리는 Recursive Agent Optimization (RAO)이라는 강화 학습 접근법을 도입한다. 이는 재귀 에이전트(recursive agents)를 훈련하기 위한 방법으로, 재귀 에이전트는 하위 작업을 spawn하고 delegate할 수 있다.
대규모 언어 모델(LLMs)은 수백 개의 웹 소스에서 정보를 종합하여 인용된 보고서로 만드는 딥 리서치 에이전트를 구동하지만, 이러한 인용은 …
우리는 두 개의 domain-adapted 모델 간의 agreement를 활용하여 제2언어(L2) 한국어 morphosyntactic annotation을 위한 간소화된 human-in-the-loop 워크플로우를 제안한다.
대규모 언어 모델(LLM) 기반 멀티에이전트 시스템(MAS)은 복잡한 협업 작업을 해결하는 데 가능성을 보여주었으며, 여기서 에이전트는 일반적으로 조정됩니다.
대규모 언어 모델은 autoregressive paradigm 하에서 눈부신 성공을 거두었지만, 고품질 텍스트 생성이 고정된 left‑to‑right 흐름에 얽매일 필요는 없습니다.
문법성(Grammaticality)과 가능도(likelihood)는 인간 언어에서 구별되는 개념이다. 사전 학습된 언어 모델(Pretrained language models, LMs)은 언어의 확률적 모델이며…
배경: 기존 MRI LLM 벤치마크는 주로 리뷰 책의 객관식 질문에 의존하고 있으며, 최고 상용 모델들이 이미 높은 점수를 받아 차별성을 제한하고 있다.
Self-consistency는 질문에 대해 여러 개의 샘플링된 답변을 생성하고 그 일치를 측정함으로써 hallucinations를 감지하지만, 이는 반복적인 decoding과 ca…
우리는 22개 언어에 걸친 이진 분류 작업인 SemEval-2026 Task 9: Multilingual Polarization Detection을 위한 시스템을 소개합니다. 우리의 접근 방식은 ...
우리는 텍스트 코퍼스의 **Concept Field**를 소개한다: 점별 불확실성을 가진 **local drift field**이며, **sentence‑embedding space**에서 **deltas**를 통해 추정된다.
우리는 45개의 검증된 psychometric questionnaires를 50개의 large language models (LLMs)에 적용하여 LLM이 psychometrically 차이를 보이는 차원을 식별합니다. U...
우리는 장시퀀스 모델을 지배하는 근본적인 트레이드오프를 식별하고 증명한다: 어떤 모델도 (i) 단계별 계산이 시퀀스 길이에 독립적이며, (ii) ... 를 동시에 달성할 수 없다.
임상 LLM은 모델 크기, 컨텍스트 길이, 검색 복잡성 또는 추론 시 연산량을 늘려 확장되는 경우가 많으며, 높은…
딥 서치 기능은 최첨단 대형 언어 모델(LLM) 에이전트에게 필수적인 역량이 되었지만, 그 개발은 여전히 induction에 의해 주도되고 있다.
Reasoning-intensive retrieval는 단순히 주제 유사성을 매칭하는 것이 아니라 하위 추론을 지원하는 증거를 드러내는 것을 목표로 합니다. 이 능력은 inc...
Emergency department triage는 환자에게 치료 우선순위를 결정하는 acuity score를 부여하며, clinical evidence는 지속적인 gender disparities를 문서화하고 있다.
Large Language Models (LLMs)은 사실적 환각에 취약하여 실제 적용에서 신뢰성이 위험에 처합니다. 기존 hallucination detectors는 주로 …
AI-generated text는 현재 다양한 도메인과 이질적인 생성 파이프라인에서 대규모로 생산되고 있으며, distribution shift에 대한 견고함이 핵심 요구사항이 되고 있다.
최근의 여러 Transformer 아키텍처는 초기 레이어에서 계산된 표현을 후속 레이어에 노출시키며, 이는 저수준 특징이 …
Conceptual analysis -- 정의를 제시하고 counterexamples를 통해 이를 다듬는 과정 -- 은 철학적 methodology의 핵심이다. 우리는 language mod...
대형 언어 모델은 추론 시점에 프롬프팅이나 activation interventions를 통해 조정될 수 있지만, activation steering 방법은 종종 비교했을 때 성능이 떨어진다.
Speculative decoding은 작은 draft model을 사용해 후보 토큰을 제안하고, 더 큰 target model이 이를 검증함으로써 대형 언어 모델(LLM) 추론을 가속화합니다.
Speculative decoding은 작은 draft model을 사용해 candidate token을 제안하고, 더 큰 target model이 이를 검증함으로써 large language model (LLM) inference를 가속화합니다.
디코딩 과정을 계속하기 이전 기사에서는 트랜스포머에서 첫 번째 출력 단어를 생성했습니다. 번역은 정확했지만 디코더 c...
대규모 분석 데이터베이스에서 Text-to‑SQL은 복잡한 스키마를 탐색하고, 모호한 쿼리를 해결하며, 실제 데이터에 기반한 결정을 내리는 것을 요구합니다. 대부분의 현재…
대규모 언어 모델(LLM) 에이전트가 고립된 도구 사용자에서 협조적인 팀으로 진화함에 따라, 강화 학습(RL)은 개별 행동뿐만 아니라 …
현대의 퍼저는 구조화된 입력을 생성하기 위해 Large Language Models(LLMs)를 점점 더 많이 사용하지만, LLM 기반 퍼징은 프롬프트 초기화와 샘플링에 민감합니다.
Automatic speech recognition (ASR) 시스템은 이음증(dysarthric) 및 기타 비정형 음성에 대해 여전히 취약합니다. 최근 audio-language 모델은 개선 가능성을 제시합니다.
Language models (LMs)은 고위험, 다중 에이전트 환경에서 점점 더 많이 사용되고 있으며, 지시를 따르고 가치 정렬을 유지하는 것이 중요합니다. Mos...
대규모 실제 데이터(RWD)에서 도출된 증거는 규제 평가와 의료 의사결정에 점점 더 큰 영향을 미치고 있습니다. Administrative claims pr...
Vision-language 모델은 안과학에 상당한 가능성을 가지고 있지만, 그 개발은 여전히 s...인 대규모 고품질 이미지-텍스트 데이터셋에 달려 있습니다.
SemEval-2026 Task 10은 음모론 탐지에 초점을 맞추고 있습니다. 구체적으로, 목표는 Reddit 댓글이 음모론 신념을 표현하고 있는지를 감지하는 것입니다. 우리의 제출...
SemEval-2026 Task 9은 다국어 편향 감지에 초점을 맞추고 있습니다. 구체적으로, 이는 다국어, 다문화 및 다이벤트 ...
대형 언어 모델(LLMs)은 추론 벤치마크에서 종종 강력한 성능을 보이지만, 최종 답변 정확도만으로는 그들이 충실히 실행하는지 여부를 보여주지 못한다...