[Paper] 치즈버거를 먹는 채식주의자 메리: LLM이 내러티브의 불일치를 인식할 수 있는가?
쌍을 이룬 서사를 포함한 데이터셋을 활용하여, 대형 언어 모델(LLMs)이 일관되지 않은 이야기와 일관된 이야기를 신뢰성 있게 구분할 수 있는 정도를 조사한다.
쌍을 이룬 서사를 포함한 데이터셋을 활용하여, 대형 언어 모델(LLMs)이 일관되지 않은 이야기와 일관된 이야기를 신뢰성 있게 구분할 수 있는 정도를 조사한다.
많은 운영 클라우드 시스템은 하나 이상의 machine learning 모델을 사용하여 효율성과 성능을 향상시킵니다. 그러나 운영자는 이를 위한 도구가 없습니다.
시판 전 약물 안전성 검토에서, 관련 부작용 용어를 표준화된 MedDRA 쿼리 또는 FDA Office of New Drugs Custom Medical Queries (O...
멀티모달 대형 언어 모델(MLLMs)은 시각‑언어 이해 작업에서 놀라운 능력을 보여주었습니다. 이러한 모델은 종종 ling...
온라인 무례함은 디지털 커뮤니티에서 널리 퍼지고 지속적인 문제로 떠올랐으며, 사용자들에게 상당한 사회적·심리적 부담을 안겨주고 있습니다. Alt...
Large Language Models (LLMs)은 코드 생성, 요약, 번역과 같은 코드 인텔리전스 작업에서 놀라운 성능을 입증했습니다. 그러나...
대규모 언어 모델(LLM) 기반 AI 에이전트가 사회에 점점 더 깊이 자리잡음에 따라, 협업, 제어, 위임 및 책임성 문제는 …
Spiking neural networks는 event-driven sensing에 뛰어나면서도 장시간에 걸쳐 task-relevant context를 유지합니다. 그러나 이러한 네트워크를 hardware에 구축하는 것은 …
Network topology는 네트워크 상에서 분산 학습의 효율적인 parameter synchronization에 필수적입니다. 그러나 대부분의 기존 연구는 ba...
자율주행 차량의 급속한 개발은 테스트 수요의 급증을 초래했습니다. 전통적인 테스트 방법으로는 virtual simulation, closed‑course, 그리고 p...
자연어 요구사항으로부터 검증 가능한 코드를 자동으로 합성하면 소프트웨어 정확성과 신뢰성을 보장하면서 장벽을 크게 낮출 수 있습니다.
우리는 대형 언어 모델(LLMs)이 도구 사용 능력을 갖춘 자율 에이전트로 작동할 때 어떻게 실패하는지를 조사한다. Kamiwaza Agentic Merit Index (KAM...