[Paper] 자신감의 착각? Neighborhood Consistency를 통한 LLM 진실성 진단
대규모 언어 모델(Large Language Models, LLMs)이 실제 환경에 점점 더 많이 배포됨에 따라, 정확성만으로는 충분하지 않습니다. 신뢰할 수 있는 배포를 위해서는 tr...을 유지해야 합니다.
대규모 언어 모델(Large Language Models, LLMs)이 실제 환경에 점점 더 많이 배포됨에 따라, 정확성만으로는 충분하지 않습니다. 신뢰할 수 있는 배포를 위해서는 tr...을 유지해야 합니다.
대형 언어 모델(LLM) 라우팅은 다양한 작업에 대해 서로 다른 LLM의 특화된 강점을 활용하는 것을 목표로 합니다. 그러나 기존 접근 방식은 일반적으로 …에 초점을 맞춥니다.
Preference tuning은 pretrained language models를 인간의 quality, helpfulness, 또는 safety에 대한 judgments에 맞추어 explicit preference signals를 최적화함으로써 정렬합니다.
우리는 AutoMonitor-Bench를 소개합니다. 이는 다양한 작업에 걸쳐 LLM 기반 오작동 모니터의 신뢰성을 체계적으로 평가하도록 설계된 최초의 벤치마크입니다…
언어 모델이 점점 더 능력해짐에 따라, 사용자들은 정확한 응답뿐만 아니라 다양한 인간의 선호에 맞는 행동을 제공하기를 기대합니다.
우리는 machine learning과 artificial intelligence를 사용했습니다: 1) 뉴스와 소셜 미디어를 통해 국가별 평화 수준을 측정하기 위해, 2) on-line 도구를 개발하기 위해...
Large vision-language models (VLMs)은 매우 높은 성능을 가지고 있지만, 시각적 증거보다 텍스트 프롬프트를 선호함으로써 종종 환각을 일으킵니다. 우리는 이 실패 모드를 연구합니다...
Entity linking(텍스트에서 모호한 언급을 지식 베이스의 엔터티에 매핑하는 작업)은 지식 그래프 구축, 질문 응답과 같은 작업에서 기본적인 단계이다.
대규모 언어 모델(LLMs)의 급속한 발전은 향후 모델을 훈련하기 위해 합성 데이터를 사용하는 것에 대한 관심이 증가하고 있습니다. 그러나 이는 자기‑c…
기존의 long-term personalized dialogue systems는 무한한 interaction streams와 제한된 context constraints를 조화시키는 데 어려움을 겪으며, 종종 memory에 굴복한다.
Natural Language Inference (NLI)은 자연어 이해를 위한 언어 모델을 평가하는 중요한 작업이었지만, 논리적 특성은…
복잡한 추론을 위한 대형 언어 모델(LLMs)은 높은 계산 비용과 지연 시간 때문에 종종 제한을 받으며, 자원 효율적인 소형 언어 모델(SL...