[Paper] 출력 정확성을 넘어: 코딩 작업에서 Large Language Model 추론의 Benchmarking 및 Evaluating
대형 언어 모델(LLMs)은 코딩 작업을 해결하기 위해 명시적 추론에 점점 더 의존하고 있지만, 이러한 추론의 품질을 평가하는 것은 여전히 어려운 과제입니다. Ex...
4481 posts from this source
대형 언어 모델(LLMs)은 코딩 작업을 해결하기 위해 명시적 추론에 점점 더 의존하고 있지만, 이러한 추론의 품질을 평가하는 것은 여전히 어려운 과제입니다. Ex...
Streaming Data-Driven Optimization (SDDO) 문제는 데이터가 지속적으로 도착하고 최적화 환경이 시간에 따라 변하는 많은 응용 분야에서 발생합니다....
비브 코딩의 등장은, 비전문가가 자연어를 통해 대형 언어 모델(LLMs)에게 실행 가능한 코드를 생성하도록 지시하는 패러다임으로, ...
우리는 작은 로컬 모델이 프런트 엔드에서 triage layer 역할을 할 수 있을 때, cloud LLM 토큰 사용량을 줄이기 위한 일곱 가지 전술에 대한 체계적인 측정 연구를 제시합니다.
대형 언어 모델(LLM)은 자연어로부터 코드를 생성할 수 있지만, 의도된 프로그램 동작을 얼마나 잘 포착하는지는 아직 명확하지 않다. Executable…
우리는 데이터가 중앙 코디네이터 없이 노드에 분산된 네트워크에서의 분산 학습을 연구한다. 랜덤 워크 학습은 토큰 기반 접근 방식이다…
Deep neural networks는 높은 정확도에도 불구하고 신뢰도 보정이 부족한 경우가 많아 고위험 응용 분야에서 신뢰성을 제한합니다. Current ad...
우리는 (Experience‑Modulated Biologically‑inspired Emergent Reasoning)이라는 하이브리드 인지 아키텍처를 제시한다. 이 아키텍처는 대형 언어 모델과의 관계를 재구성한다.
현대 머신러닝 방법은 외계 시료에서 생명을 탐지하기 위해 제안되었으며, 이 방법은 생물학적(biotic)과 비생물학적(abiotic) 샘플을 구별하는 능력을 활용합니다.
이미지 간에 매칭되는 keypoints를 찾는 것은 3D computer vision의 핵심 문제입니다. 그러나 최신 matchers는 큰 in-plane rotations에 어려움을 겪습니다. A straightfo...
자율 오프그리드 태양광 시스템의 안정적인 운영은 대기 열역학을 고려한 태양 예측 알고리즘에 의존하도록 요구한다.
본 연구에서는 Human-Object Interaction Video Generation (HOIVG)을 연구합니다. 이는 텍스트에 조건화된 고품질 인간‑객체 상호작용 비디오를 합성하는 것을 목표로 합니다.
Big Five와 같은 심리학적 구성요소를 사용하여, 대형 언어 모델(LLMs)은 특정 성격 프로파일을 모방하고 사용자의 성격을 예측할 수 있다. Wh...
우리는 복원된 장면의 diffusion-based refinement 과정에서 cross-view consistency를 강제하는 프레임워크인 SyncFix를 제시한다. SyncFix는 정제를…
Tool-augmented Large Language Model (LLM) agents는 복잡하고 다단계의 실제 작업을 자동화하는 데 인상적인 능력을 보여주었지만, 여전히 취약…
High dynamic range (HDR) 이미지는 장면 복사광을 풍부하고 충실하게 표현하지만, 그 불일치 때문에 생성 모델에게는 여전히 도전 과제입니다...
대규모 멀티모달 모델(LMMs)은 범용 비전‑언어 이해에서 눈에 띄는 진전을 이루었지만, 여전히 p...
오픈플레이 축구 전술을 모델링하는 것은 게임의 stochastic하고 multi-agent적인 특성 때문에 어려운 과제입니다. 기존의 computational approaches는 일반적으로 p...
언어 변화는 사회적 과정을 반영하고 형성하며, 기본 개념들의 semantic evolution은 역사적 및 사회적 과정의 측정 가능한 흔적을 제공한다.
Kullback-Leibler (KL) divergence는 정보 이론에서 두 확률 분포 사이의 차이를 정량화하는 기본 개념입니다. In the co...
General first-order methods (GFOM)는 상태 벡터를 행렬‑벡터 곱과 원소별 비선형 연산으로 업데이트하는 유연한 클래스의 반복 알고리즘이다.
Serverless 제공업체는 배포 밀도를 최적화하여 높은 자원 활용도를 달성하려고 합니다: 하나의 호스트 서버당 몇 개의 애플리케이션을 배포할 수 있는가. 그러나, achi...
Spiking Transformers는 Transformers의 확장성과 Spiking Neural Networks (SNNs)의 희소하고 에너지 효율적인 특성을 결합하여 ...를 달성했습니다.
고성능 컴퓨팅 및 AI 워크로드가 GPU에 점점 더 의존하게 되면서, 빠르게 진화하는 하드웨어 세대에 걸쳐 높은 성능을 유지하는 것이 ...
클라우드 네이티브 아키텍처는 클라우드 환경을 최대한 활용하기 위해 확장 가능한 마이크로서비스 애플리케이션을 구축하고 실행하는 것을 의미합니다. Managed Kubernetes ...
양자 컴퓨팅 커뮤니티는 양자 프로세서를 고전 HPC 워크플로우 내에서 GPU와 TPU에 비유되는 가속기로 점점 더 위치시키고 있습니다. 그러나…
Multi-model LLM routing은 각 prompt를 ...에 할당함으로써 serving cost와 latency를 줄이면서 output quality를 유지하는 효과적인 접근법으로 부상했습니다.
Vision-language models (VLMs)은 여전히 공간 이해와 시점 인식과 같은 시각 인지 작업에서 어려움을 겪고 있다. 가능한 한 가지 원인…
Large Vision Language Models (LVLMs)는 강력한 멀티모달 추론 능력을 달성하지만, 종종 높은 확신을 가지고 hallucination과 잘못된 응답을 보입니다, ...
생산 환경에서 엑사스케일 성능을 지속하려면 실제 배포 제약과 요구 사항 하에서만 나타나는 엔지니어링 선택과 운영 관행이 필요합니다.
노름, 형식 이론 언어학자와 클로드, 계산 언어 과학자는 현대 언어 모델이 … 할 수 있는지에 대해 즐겁게 토론한다.
모델 포이징 공격은 연합 학습(Federated Learning, FL)에 중대한 보안 위협을 제기합니다. 대부분의 기존 모델 포이징 공격은 공모에 의존하며, 공격자...
I‑Ching의 King Wen 순서(기원전 약 1000년)는 64개의 hexagram—6차원 이진 공간의 상태—을 학자들을 당황하게 만든 패턴으로 배열한다.
Von Economo neurons (VENs)은 대형 양극성 투사 뉴런으로, 전전두 대상피질(ACC)과 전두 섬(insula)에서만 독점적으로 발견되며, 복잡한 …
현대 LLM 강화 학습(RL) 워크로드는 이기종 컴퓨팅 리소스 전반에 걸쳐 학습을 확장하기 위해 고효율 weight transfer system이 필요합니다.
사회적 행위자들은 집단 규범을 내면화하고 창의적 행동을 통해 이를 재구성하지만, computational models는 이 양방향 과정을 포착하지 못했다.
인체 피팅은 SMPL과 같은 파라메트릭 바디 모델을 옷을 입은 사람들의 원시 3D 포인트 클라우드에 정렬하는 작업으로, 하위 작업들을 위한 중요한 첫 단계 역할을 합니다.
Free-form bones는 표면에 밀접하게 맞춰져 비강체 변형을 효과적으로 포착할 수 있지만, 직관적인 con...에 필요한 kinematic structure가 부족합니다.
에이전시 멀티모달 모델의 등장은 시스템이 외부 환경과 적극적으로 상호작용할 수 있게 했습니다. 그러나 현재 에이전트들은 심각한 me...
Text-to-video diffusion models는 개방형 비디오 합성을 가능하게 했지만, 프롬프트에 지정된 정확한 객체 수를 생성하는 데 종종 어려움을 겪습니다.
Event 카메라는 헤드 마운트 장치에서 단안 egocentric 3D 인간 자세 추정을 수행할 때 밀리초 수준의 시간 해상도, 높은 …
Robotic manipulation with deformable objects는 embodied learning에서 데이터 집약적인 regime을 나타내며, 여기서 shape, contact, 그리고 topology가 ... 방식으로 공동 진화한다.
이 논문은 긴 비디오 시퀀스로부터 대규모 3D 장면 재구성 작업을 다룹니다. 최근의 feed-forward reconstruction 모델들은 유망한 결과를 보여주었습니다.
Multimodal Mixture-of-Experts (MoE) 모델은 vision-language 작업에서 눈에 띄는 성능을 달성했습니다. 그러나 우리는 Seei…라는 당혹스러운 현상을 확인했습니다.
Text-to-Audio-Video (T2AV) 생성은 미디어 제작의 핵심 인터페이스로 빠르게 자리 잡고 있지만, 그 평가 방법은 여전히 파편화되어 있습니다. 기존 벤치마크는 …
Group Relative Policy Optimization (GRPO)은 최근 멀티모달 대형 언어 모델(Multimodal Large Language Models) 분야의 발전을 이끄는 사실상의 강화 학습(Reinforcement Learning, RL) 목표로 부상하고 있습니다.
Visual decoding from brain signals은 computer vision과 neuroscience의 교차점에서 핵심 과제이며, neural representation을 연결하는 방법을 필요로 합니다.
우리는 RewardFlow를 소개한다. 이는 사전 학습된 diffusion 및 flow-matching 모델을 추론 시에 다중 보상 Langevin dynamics를 통해 조정하는 inversion‑free 프레임워크이다.