[Paper] 생성형 대형 언어 모델을 이용한 자동 음성 인식 평가
자동 음성 인식(ASR)은 전통적으로 의미에 민감하지 않은 지표인 Word Error Rate(WER)를 사용해 평가됩니다. 임베딩 기반 의미 메트릭...
자동 음성 인식(ASR)은 전통적으로 의미에 민감하지 않은 지표인 Word Error Rate(WER)를 사용해 평가됩니다. 임베딩 기반 의미 메트릭...
최첨단 언어 모델(frontier language models)이 정적 수학 벤치마크(static mathematical benchmarks)에서 거의 최고 수준의 성능을 달성함에 따라, 기존 평가들은 점점 더 모델을 구별하기 어려워지고 있다.
대규모 비전-언어 모델(LVLMs)의 능력이 인상적으로 향상되었음에도 불구하고, 이러한 시스템은 여전히 hallucinations에 취약합니다, 즉 ...
모델 규모가 계속 커짐에 따라, 파라미터 효율적인 파인튜닝이 전체 파인튜닝에 대한 강력한 대안으로 부상했습니다. LoRA가 널리 채택되는 동안…
입법 행동(legislative behavior) 분석은 종종 투표 기록(voting records)에 의존하여 정치 연설(political speech)의 풍부한 의미적(semantic) 및 수사적(rhetorical) 내용을 간과한다. 이 논문에서 우리는 …
Event extraction은 텍스트에서 사건의 핵심 측면을 식별합니다. 이는 사건 이해와 분석을 지원하며, 정보에 기반한 d…
Real-time 감지와 완화는 대규모 cloud-native services에 있어 매우 중요합니다. 여기서 몇 분의 downtime도 대규모…
Event extraction은 이벤트 이해와 분석에 필수적입니다. 이는 문서 요약 및 비상 상황에서의 decision-making과 같은 작업을 지원합니다....
대규모 언어 모델(LLMs)이 어떤 종류의 사실적 지식을 기억하는지를 이해하는 것은 그들의 신뢰성과 한계를 평가하는 데 필수적이다. Entity-based ...
인간의 도덕 판단은 맥락에 따라 달라지고 대인 관계에 의해 조절된다. large language models (LLMs)이 점점 더 의사결정 지원 역할을 수행함에 따라...
이전 연구에서는 주로 간단한 조건문을 통해 코드 생성 편향을 평가했으며, 이는 실제 프로그래밍의 좁은 부분만을 나타냅니다.
Paralinguistic cues는 자연스러운 인간‑컴퓨터 상호작용에 필수적이지만, Large Audio‑Language Models (LALMs)에서의 평가는 거친 …에 의해 제한되고 있다.
현대 언어 모델은 C++ 및 Python과 같은 일반적인 프로그래밍 언어(PL)에서 인상적인 코딩 능력을 보여주지만, 낮은‑
인공지능(AI) 시스템이 중요한 분야에 점점 더 많이 배치됨에 따라, 그 보안 취약점은 고위험 노출의 위험을 증가시키고 있다...
자연어 텍스트로 학습된 언어 모델은 T=2, 5, 10의 지배적인 주기를 갖는 주기적 특징을 사용하여 숫자를 표현하는 방법을 학습합니다. 이 논문에서는 두…
대형 비전-언어 모델(LVLMs)은 올림피아드 수준의 추론 작업에서 상당한 진전을 이루었습니다. 그럼에도 불구하고 현재 올림피아드 수준의 멀티모달...
대형 언어 모델(LLMs)은 의료 분야에 점점 더 많이 도입되고 있지만, 임상 표준과의 의사소통 정렬은 아직 충분히 정량화되지 않고 있습니다.
우리는 인간과 유사한 작업 기억 제약을 Transformer 아키텍처에 통합하는 방안을 조사하고, 여러 인지적으로 영감을 받은 attention v...
우리는 bilingual Latin and English settings에서 question answering 및 translation을 위한 benchmark dataset을 소개합니다. 약 7,800개의 question‑answer pairs를 포함합니다. T...
Freight brokerages는 동적 가격 책정 조건 하에서 매일 수천 건의 carrier rates를 협상하고, 모델이 대화 중간에 목표를 자주 수정합니다. Classica...
이 연구는 자유 텍스트 법률 질문 응답에 대한 LLM-as-a-Judge 평가에서 프롬프트 디자인과 판사 선택의 역할을 탐구합니다. 우리는 자동…
Behaviour-Driven Development (BDD) 스위트는 단계 텍스트 중복을 축적하며, 그 유지 관리 비용은 이전 연구에서 입증되었습니다. 기존 탐지 기법은 …
Large Language Models (LLMs)은 여전히 다단계 논리 추론에 어려움을 겪는다. 기존 접근 방식은 자연어로 추론 체인을 순수하게 정제하거나 ...
진리 추구는 democratic deliberation과 governance의 핵심이지만, political discourse는 다양한 epistemic orientations을 반영하며, 증거…
Function vectors (FVs)는 인컨텍스트 학습 중 모델 활성화에서 추출된 작업의 벡터 표현입니다. 이전 연구에서는 다중선형…
대규모 언어 모델은 복잡한 추론 작업에서 눈에 띄는 진전을 이루었습니다. 그러나 입력이 불완전할 때 종종 암묵적으로 정보를 조작합니다.
홍, 포티거, 그리고 자파타(2026)의 이전 논문에서는 최적화되지 않은 GPT 4.1 프롬프트가 팬이 보고한 경험 평점을 1점 이내로 67% 정확도로 예측한다는 것을 입증했습니다...
Edge devices인 스마트워치와 스마트 안경은 전력 및 compute constraints 때문에 100M‑1B 파라미터 규모의 가장 작은 language models조차 지속적으로 실행할 수 없습니다.
Multimodal Large Language Models는 인터랙티브 환경에서 자율 에이전트로 점점 더 많이 채택되고 있지만, 안전 위험을 사전에 해결하는 능력은 …
Free-association norms는 인지 과학에서 언어적, 의미적, 문화적 현상을 조사하기 위한 필수적인 실증 데이터를 제공합니다. 비록 대규모…
최근 연구는 진화적 및 에이전트 최적화 시스템 내에서 대규모 언어 모델(LLM)을 조정하는 것의 가능성을 보여주었습니다. 그러나, 메커...
현대 시퀀스 모델은 Transformer가 지배하고 있으며, self‑attention은 입력에 따라 가시적인 컨텍스트의 정보를 혼합합니다. 그러나, when r...
대형 언어 모델은 생성 중에 회복할 수 없는 추론 오류를 자주 저지릅니다: 일단 잘못된 단계가 발생하면, 이후 토큰들이 그 실수를 더욱 복합시킵니다…
최근 연구(Kuribayashi et al., 2025)는 일반적으로 syntactically unchallenging constructions에서 측정되는 인간의 sentence processing behavior가 …
Weight quantization은 효율적인 LLM 배포를 위한 표준 도구가 되었으며, 특히 로컬 인퍼런스에서 모델이 이제 2‑3비트 수준으로 일상적으로 제공됩니다.
모델 출력 검증은 대형 언어 모델(LLMs)의 훈련 및 실제 배포 모두에서 핵심 기본 요소로 급속히 부상하고 있습니다. 실제로, t...
클로와 같은 에이전트를 training 및 evaluating 하기 위한 환경을 구축하는 것은 여전히 수동적이고 인간 중심적인 과정으로, 규모를 확장할 수 없습니다. 우리는 필요하다고 주장합니다.
이 논문은 경험적 대화 흐름 통계가 다음 대화 행위 예측(NDAP)에 어떻게 통합될 수 있는지를 연구한다. KL 정규화 항이 제안된다…
Large language models (LLMs)은 추론 시 외부 지식을 통합하기 위해 retrieval-augmented generation (RAG)에서 널리 사용됩니다. 그러나, retrieve…
번역하려는 텍스트를 제공해 주시겠어요? 해당 내용이 필요합니다.
Large Audio-Language Models (LALMs)는 일상 애플리케이션에 점점 더 통합되고 있지만, 그들의 생성 편향은 아직 충분히 탐구되지 않았다. 기존 음성 공정성…
빠른 진전에도 불구하고, 순차적 의사결정을 위한 LLMs(즉, LLM agents)는 여전히 다양한 출력을 생성하는 데 어려움을 겪고 있습니다. 이는 충분하지 않은 탐색을 초래합니다.
우리는 표 형식 데이터 문서에서 주장 검증을 위한 새로운 접근 방식을 제시한다. 최근 LLM 기반 접근 방식은 복잡한 사전 학습/미세 조정 또는 …
순수하게 탐욕적인 업데이트에 기반한 반복 정렬 방법은 실제로 놀라울 정도로 효과적이지만, 기존의 (O(log T)) KL‑regularize에 대한 이론적 보장은…
최근 요약 평가의 진보는 모델 기반 메트릭을 사용하여 완전성(completeness), 간결성(conciseness), 충실성(faithfulness)과 같은 품질 차원을 평가하는 데 기반하고 있습니다. 그러나...
대부분의 자동 정리 증명 접근 방식은 형식 증명 시스템에 의존하지만, 비공식 정리 증명은 대규모 언어 모델과 더 잘 맞을 수 있다...
이 논문은 다양한 정중함 및 무례함 정도를 가진 사용자 프롬프트에 대한 대형 언어 모델(Large Language Models, LLMs)의 반응을 탐구한다. Politeness Theory에 따르면...
AI 지원 비디오 제작이 점점 실용화됨에 따라, 명령 기반 비디오 편집은 생성되거나 촬영된 영상의 정교화를 위해 필수적이 되었습니다…