[Paper] MoD‑DPO: Omni LLM에서 Cross‑modal Hallucinations를 완화하기 위한 Modality Decoupled Preference Optimization 활용
Omni-modal large language models (omni LLMs)는 최근 시청각 이해 작업 전반에 걸쳐 강력한 성능을 달성했지만, 여전히 높은 취약성을 보인다.
Omni-modal large language models (omni LLMs)는 최근 시청각 이해 작업 전반에 걸쳐 강력한 성능을 달성했지만, 여전히 높은 취약성을 보인다.
자동화된 산업 최적화 모델링은 자연어 요구사항을 솔버 실행 코드로 신뢰성 있게 변환해야 합니다. 그러나 대형 언어 모델은…
검증 가능한 상징 데이터에 대한 학습은 표준 사전 학습 코퍼스가 제공하는 것보다 언어 모델의 추론 한계를 확장하는 유망한 방법이다. Y...
테스트 시 강화 학습(TTRL)은 자체 진화하는 대규모 추론 모델(LRMs)을 위한 유망한 패러다임으로 부상했으며, 라벨이 없는 데이터에 대한 온라인 적응을 가능하게 합니다.
Claude 에이전트 스킬의 급속한 확산은 에이전트 스킬 생태계를 효과적으로 활용하고 관리하며 확장하는 방법에 대한 핵심 질문을 제기했습니다. In t...
Retrieval-Augmented Generation (RAG) 시스템은 일반적으로 multi‑query retrieval와 reciprocal rank fusion (RRF)과 같은 retrieval fusion 기술을 채택하여 …
범죄 관련 문서에서 중요한 정보를 추출하는 것은 법 집행 기관에게 매우 중요한 과제입니다. Named-Entity Recognition (NER)은 ...
현대 언어 모델은 제한된 컨텍스트 내에서 추론하며, 이는 장기 추론에 대한 근본적인 장벽이 되는 고유한 제약입니다. 우리는 재귀를 ...
Think-Answer 리저버와 같은 DeepSeek‑R1은 해석 가능한 내부 추론을 활용하여 눈에 띄는 진전을 이루었습니다. 그러나 빈번하게 존재하는 ...
멀티모달 검색은 이질적인 모달리티에 걸친 쿼리에서 정보를 집계하여 원하는 타깃을 검색하는 작업이다. 최첨단 멀티모달…
도구 사용 에이전트를 훈련하는 것은 일반적으로 결과 기반 필터링에 의존한다: 성공적인 궤적에 대한 Supervised Fine-Tuning (SFT)과 Reinforcement Learning (RL) …
우리는 Legal RAG Bench를 소개한다. 이는 법률 RAG 시스템의 엔드‑투‑엔드 성능을 평가하기 위한 벤치마크 및 평가 방법론이다. 벤치마크로서 Legal RAG Bench는…