[Paper] AdaFuse: 적응형 앙상블 디코딩과 테스트 시 스케일링을 이용한 LLMs
대형 언어 모델(LLMs)은 사전 학습 데이터, 모델 아키텍처, 디코딩 행동의 차이에서 비롯되는 상보적인 강점을 보여준다. Inference...
대형 언어 모델(LLMs)은 사전 학습 데이터, 모델 아키텍처, 디코딩 행동의 차이에서 비롯되는 상보적인 강점을 보여준다. Inference...
강화 학습(RL)은 LLM 기반 딥 서치 에이전트를 향상시키는 핵심 기술로 부상했습니다. 그러나 기존 접근 방식은 주로 이진...
최근 대형 언어 모델(Large Language Model, LLM) 에이전트의 발전으로 인해 광범위한 도구 호출이 필요한 복잡한 다중 턴 에이전시 작업이 가능해졌으며, 대화는…
대규모 언어 모델(LLMs)은 인간이나 비 Long CoT LLMs의 모방으로부터 효과적인 장기 사고 연쇄(Long CoT) 추론을 학습하는 데 종종 실패한다. 이를 이해하기 위해…
우리는 파일 기반 m...을 통해 일시적인 비판을 검색 가능한 가이드라인으로 변환함으로써 추론 시점 추론 비용을 상쇄하는 프레임워크를 제안한다.
자율 머신러닝 에이전트는 과학적 발견에 혁명을 일으켰지만, 여전히 Generate-Execute-Feedback 패러다임에 의해 제한됩니다. 이전 접근법…
우리는 Pantagruel 모델을 공개합니다, 프랑스어 텍스트와 음성을 위한 새로운 self-supervised encoder 모델군입니다. modality-tailored 목표를 예측하는 대신에…
대규모 언어 모델(Large Language Models, LLMs)이 실제 환경에 점점 더 많이 배포됨에 따라, 정확성만으로는 충분하지 않습니다. 신뢰할 수 있는 배포를 위해서는 tr...을 유지해야 합니다.
대형 언어 모델(LLM) 라우팅은 다양한 작업에 대해 서로 다른 LLM의 특화된 강점을 활용하는 것을 목표로 합니다. 그러나 기존 접근 방식은 일반적으로 …에 초점을 맞춥니다.
Preference tuning은 pretrained language models를 인간의 quality, helpfulness, 또는 safety에 대한 judgments에 맞추어 explicit preference signals를 최적화함으로써 정렬합니다.
우리는 AutoMonitor-Bench를 소개합니다. 이는 다양한 작업에 걸쳐 LLM 기반 오작동 모니터의 신뢰성을 체계적으로 평가하도록 설계된 최초의 벤치마크입니다…
언어 모델이 점점 더 능력해짐에 따라, 사용자들은 정확한 응답뿐만 아니라 다양한 인간의 선호에 맞는 행동을 제공하기를 기대합니다.