[Paper] On-Policy Distillation 재검토: 경험적 실패 모드와 간단한 해결책
On-policy distillation (OPD)은 대규모 언어 모델(LLM) 사후 학습에 매력적입니다. 왜냐하면 교사의 피드백을 학생이 생성한 롤아웃에 대해 평가하기 때문입니다.
On-policy distillation (OPD)은 대규모 언어 모델(LLM) 사후 학습에 매력적입니다. 왜냐하면 교사의 피드백을 학생이 생성한 롤아웃에 대해 평가하기 때문입니다.
우리는 시각적으로 기반을 둔 이야기에서 서사 일관성을 연구하기 위해 인간이 작성한 서사와 비전‑언어 모델(VLMs)이 생성한 서사를 Vis…에서 비교합니다.
대형 언어 모델(LLMs)의 등장으로 프로그래밍에 패러다임 전환이 촉진되었으며, 사용자가 완전한 프로젝트를 구축할 수 있는 ‘vibe coding’이 등장했습니다.
Retrieval-augmented generation (RAG) 시스템은 복잡한 정책 문서를 분석하는 데 점점 더 많이 사용되고 있지만, 전문가가 사용하기에 충분한 신뢰성을 확보하는 것은 …
Hallucination은 대형 언어 모델(LLMs)에게 여전히 중요한 병목 현상으로 남아 있으며, 실제 응용에서의 신뢰성을 저해하고 특히 Retrieval-...
읽기 이해는 특수교육 필요 및 장애(SEND) 아동에게 상당한 도전 과제를 제시하며, 종종 집중적인 일대일 지원이 필요합니다.
Adaptive scaffolding은 학습을 향상시키지만, 이 분야는 실제 튜터링 대화 내에서 이를 측정할 견고한 방법이 부족합니다. 이 격차는 점점 더 시급해지고 있습니다.
보정되지 않은 confidence scores는 임상 환경에서 AI를 배치하는 데 실질적인 장애물입니다. 항상 overconfident한 모델은 ...에 유용한 신호를 제공하지 않습니다.
Self-distillation은 LLM에 대한 효과적인 post‑training paradigm으로 부상했으며, 종종 performance를 향상시키면서 reasoning traces를 단축합니다. 그러나, 수학적으로…
Vision Language Models (VLMs)는 의료 보고서 생성 및 visual question answering과 같은 작업에 점점 더 많이 사용되고 있습니다. 그러나 fluent diagnostic text는 …
표준 평가 관행은 대형 언어 모델(LLM) 출력이 작업의 맥락적으로 동등한 형식에서도 안정적이라고 가정합니다. 여기서 우리는 이를 테스트합니다.
Agentic multimodal large language models (MLLMs) (예: OpenAI o3 및 Gemini Agentic Vision)은 반복적인 시각 ...
기존 멀티모달 대형 언어 모델(MLLMs)은 3D 공간 추론에 어려움을 겪으며, 3D 환경에 대한 구조화된 추상화를 구축하지 못합니다.
데이터베이스에 대한 자연어 인터페이스(NLIDB)를 구축하는 작업은 최근 데이터베이스와 자연어 처리 분야 모두에서 큰 관심을 받고 있습니다…
데이터 활용 효율성을 향상시키는 것은 트래젝터리 생성 비용이 높은 장기 과제에 대해 강화학습(RL)을 확장하는 데 필수적입니다. 어떻게…
Temporal Relation Extraction (TRE)은 두 사건 또는 시간 표현이 시간적으로 어떻게 관련되어 있는지를 식별하는 것을 요구합니다. 기존의 attention‑based models는 종종 …
LLMs은 전 세계에 배포되지만, 훈련 데이터가 풍부한 문화에 편향된 응답을 생성한다. 기존의 cultural localization 접근 방식인 prompting…
Benchmarks와 leaderboards는 NLP가 진행 상황을 가장 많이 전달하는 방식이지만, LLM 시대에는 점점 오해하기 쉬워지고 있습니다. Scores는 benchmark를 반영할 수 있습니다.
Teacher Forcing이란 무엇인가? seq2seq 신경망을 훈련할 때, 디코더는 한 번에 하나의 토큰을 생성하며 출력 시퀀스를 단계적으로 구축한다. 각…
Diffusion Transformers (DiTs)는 고충실도 비디오 월드 모델을 구동하지만, 순차적 디노이징과 비용이 많이 드는 시공간 처리 때문에 계산 비용이 많이 듭니다.
최근 잠재 세계 모델(예: V-JEPA2)의 발전은 비디오 관찰을 통해 미래 세계 상태를 예측하는 데 유망한 능력을 보여주었습니다. 그럼에도 불구하고, ...
우리는 TiCo라는 간단한 post‑training 방법을 제안한다. 이 방법은 spoken dialogue models (SDMs)가 시간 제한이 있는 지시를 따르고, 응답을 생성하도록 한다.
수억 명의 사람들이 교육, 업무, 심지어 의료까지 대형 언어 모델(LLMs)에 의존하고 있습니다. 그러나 이러한 모델들은 재현하고 확대한다는 것이 알려져 있습니다.
Diffusion Language Models (DLMs)는 Auto-Regressive (AR) 모델에 비해 full-attention parallel decoding 및 flexible generation과 같은 매력적인 장점을 제공합니다....
Conversation은 사회 생활에서 어디에나 존재하지만, 이 interactive process에 대한 empirical study는 충분히 modular하지 않고 …
자동회귀(AR) 언어 모델의 느리고 순차적인 특성 때문에 병렬 디코딩 방법이 채택되었습니다. 그러나 이러한 비‑AR 모델은 종종 …를 희생합니다.
대규모 언어 모델(LLMs)은 방대한 양의 데이터로 사전학습(pretrained)되지만, 그들의 지식 커버리지는 전문화된 데이터가 부족한 도메인에서는 여전히 완전하지 않으며, m...
기계 번역에서, Large Language Models (LLMs)은 일반적으로 기존의 encoder-decoder 시스템에 비해 성능이 낮았으며, 따라서 채택이 제한적이다...
최근 interpretability 연구는 종종 특징을 단일 전역 방향, dictionary atom, 혹은 컨텍스트 전반에 걸쳐 공유되는 latent coordinate로 취급합니다. 우리는 ...
Video agentic models는 도전적인 video-language 작업을 발전시켰습니다. 그러나 대부분의 agentic 접근 방식은 여전히 densely sampled ...에 대한 greedy parsing에 크게 의존합니다.
최근의 chain-of-thought (CoT) faithfulness 연구는 단일 집계 수치를 보고한다 (예: DeepSeek‑R1은 힌트를 39%의 비율로 인식한다), 이는 faithf...
경쟁이 치열한 영역에서, instruction-tuned language models는 user-alignment 압력과 in-context evidence에 대한 충실성 사이의 균형을 맞춰야 합니다. 이를 평가하기 위해 ...
대규모 언어 모델(LLMs)은 다양한 작업에서 놀라운 능력을 입증했습니다. 그러나 그 출력의 진실성은 보장되지 않으며, t...
대형 언어 모델(LLMs)은 많은 추론 벤치마크에서 강력한 성능을 달성하지만, 이러한 평가는 일반적으로 r...와 다른 고립된 작업에 초점을 맞춥니다.
우리는 대화에서 화자와 청자가 보여주는 verbal 및 nonverbal linguistic features가 청자의 상태를 예측하는 데 어떻게 기여할 수 있는지 조사한다.
!‘Understanding Seq2Seq Neural Networks – Part 5: Decoding the Context Vector’ 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,...
멀티모달 대형 언어 모델(MLLMs)은 시각과 언어를 연결하는 데 인상적인 진전을 이루었지만, 여전히 공간 이해에 어려움을 겪고 있다...
대형 언어 모델(Large Language Models)은 다양한 NLP 작업에서 최첨단(state-of-the-art) 결과를 달성하지만, 여전히 체계적인 편향에 취약합니다. 그 중에서도 성(gender) 편향…
다국어 사전학습에서, 사전학습된 모델의 테스트 손실은 사전학습 데이터에서 각 언어가 차지하는 비율, 즉 ...
Large language models (LLMs)은 수십억 개의 파라미터를 가지고 있지만, 많은 정확한 값들은 필수적이지 않다. 우리는 가장 중요한 것이 wei의 상대 순위라는 것을 보여준다…
대형 언어 모델(LLMs)이 다언어 환경에 배치됨에 따라, 문화적으로 다양하고 자원이 부족한 언어에서의 안전 행동은 아직 충분히 이해되지 않고 있다.
인간 언어 간의 거리를 이해하는 것은 언어학, 인류학, 그리고 인간 진화 역사를 추적하는 데 핵심적입니다. 그러나 언어학이 l
대규모 언어 모델(LLMs)은 전례 없는 유창성을 달성했지만, 사실과 다르거나 근거가 없는 정보를 생성하는 ‘hallucinations’에 여전히 취약합니다.
코딩 에이전트가 대규모 저장소에서 작업을 수행하기 위한 전제 조건은 코드 로컬라이제이션—관련 파일, 클래스 및 함수를 식별하는 것입니다—.
교수진의 초기 경력 단계는 형성적이고 흥미로운 시기로, 확고한 기반을 마련하여 연구의 궤도를 결정하는 데 도움이 됩니다.
대형 언어 모델을 개선하기 위한 현재의 패러다임은 인간 주석이나 시뮬레이션 환경을 이용한 오프라인 훈련에 의존하며, 풍부한 경험을…
‘LLM-as-a-judge’ 패러다임은 개방형 생성(open-ended generation)을 평가하는 표준 방법이 되었다. 쌍별 비교(pairwise comparison)의 2차 규모 확장 비용을 해결하기 위해…
문화는 추론, 가치, 우선순위 설정 및 전략적 의사결정에 영향을 미치지만, 대형 언어 모델(LLMs)은 종종 문화적 편향을 보여서 ...와 일치하지 않는다.