nlp — Page 23 | EUNO.NEWS

정렬:

1개월 전 · ai · - · -

[Paper] AdaFuse: 적응형 앙상블 디코딩과 테스트 시 스케일링을 이용한 LLMs

대형 언어 모델(LLMs)은 사전 학습 데이터, 모델 아키텍처, 디코딩 행동의 차이에서 비롯되는 상보적인 강점을 보여준다. Inference...

#research #paper #ai #machine-learning #nlp
1개월 전 · ai · - · -

[Paper] 증거 연결: 견고한 Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

강화 학습(RL)은 LLM 기반 딥 서치 에이전트를 향상시키는 핵심 기술로 부상했습니다. 그러나 기존 접근 방식은 주로 이진...

#research #paper #ai #nlp
1개월 전 · ai · - · -

[Paper] 캐시를 깨뜨리지 마세요: 장기 지평선 에이전시 작업을 위한 Prompt Caching 평가

최근 대형 언어 모델(Large Language Model, LLM) 에이전트의 발전으로 인해 광범위한 도구 호출이 필요한 복잡한 다중 턴 에이전시 작업이 가능해졌으며, 대화는…

#research #paper #ai #nlp
1개월 전 · ai · - · -

[Paper] 생각의 분자 구조: Long Chain-of-Thought Reasoning 위상의 매핑

대규모 언어 모델(LLMs)은 인간이나 비 Long CoT LLMs의 모방으로부터 효과적인 장기 사고 연쇄(Long CoT) 추론을 학습하는 데 종종 실패한다. 이를 이해하기 위해…

#research #paper #ai #machine-learning #nlp
1개월 전 · ai · - · -

[Paper] 피드백을 Memory-as-a-Tool로 증류

우리는 파일 기반 m...을 통해 일시적인 비판을 검색 가능한 가이드라인으로 변환함으로써 추론 시점 추론 비용을 상쇄하는 프레임워크를 제안한다.

#research #paper #ai #nlp
1개월 전 · ai · - · -

[Paper] 머신러닝 에이전트를 실행하기 전에 예측할 수 있을까?

자율 머신러닝 에이전트는 과학적 발견에 혁명을 일으켰지만, 여전히 Generate-Execute-Feedback 패러다임에 의해 제한됩니다. 이전 접근법…

#research #paper #ai #machine-learning #nlp
1개월 전 · ai · - · -

[Paper] Pantagruel: 프랑스어 텍스트와 음성을 위한 통합 Self‑Supervised Encoders

우리는 Pantagruel 모델을 공개합니다, 프랑스어 텍스트와 음성을 위한 새로운 self-supervised encoder 모델군입니다. modality-tailored 목표를 예측하는 대신에…

#research #paper #ai #nlp
1개월 전 · ai · - · -

[Paper] 자신감의 착각? Neighborhood Consistency를 통한 LLM 진실성 진단

대규모 언어 모델(Large Language Models, LLMs)이 실제 환경에 점점 더 많이 배포됨에 따라, 정확성만으로는 충분하지 않습니다. 신뢰할 수 있는 배포를 위해서는 tr...을 유지해야 합니다.

#research #paper #ai #machine-learning #nlp
1개월 전 · ai · - · -

[Paper] HAPS: 계층적 LLM 라우팅과 공동 아키텍처 및 파라미터 탐색

대형 언어 모델(LLM) 라우팅은 다양한 작업에 대해 서로 다른 LLM의 특화된 강점을 활용하는 것을 목표로 합니다. 그러나 기존 접근 방식은 일반적으로 …에 초점을 맞춥니다.

#research #paper #ai #nlp
1개월 전 · ai · - · -

[Paper] 도메인 쉬프트 하에서 Preference Tuning 일반화와 다양성에 관한 실증 연구

Preference tuning은 pretrained language models를 인간의 quality, helpfulness, 또는 safety에 대한 judgments에 맞추어 explicit preference signals를 최적화함으로써 정렬합니다.

#research #paper #ai #machine-learning #nlp
1개월 전 · ai · - · -

[Paper] AutoMonitor-Bench: LLM 기반 Misbehavior Monitor의 신뢰성 평가

우리는 AutoMonitor-Bench를 소개합니다. 이는 다양한 작업에 걸쳐 LLM 기반 오작동 모니터의 신뢰성을 체계적으로 평가하도록 설계된 최초의 벤치마크입니다…

#research #paper #ai #nlp
1개월 전 · ai · - · -

[Paper] GDPO: 다중 보상 RL 최적화를 위한 그룹 보상-분리 정규화 정책 최적화

언어 모델이 점점 더 능력해짐에 따라, 사용자들은 정확한 응답뿐만 아니라 다양한 인간의 선호에 맞는 행동을 제공하기를 기대합니다.

#research #paper #ai #machine-learning #nlp

Newer posts

Older posts