[Paper] PGT: MLLM에서 visual grounding을 개선하기 위한 Procedurally Generated Tasks
Multimodal Large Language Models (MLLMs)의 눈부신 진전에도 불구하고, 이러한 모델들은 여전히 세밀한 이해 작업에서 어려움을 겪는다. 본 연구에서 우리는 ...
Multimodal Large Language Models (MLLMs)의 눈부신 진전에도 불구하고, 이러한 모델들은 여전히 세밀한 이해 작업에서 어려움을 겪는다. 본 연구에서 우리는 ...
Gradient-flow sampling은 Gibbs 분포를 확률 측도 위의 에너지 함수의 최소화자로 해석하고, t에 수렴하는 동역학을 생성한다.
우리는 training-free looped transformers를 소개합니다. 여기서 lightweight inference-time wrapper가 frozen checkpoint의 연속적인 mid-stack block 레이어들을 루프합니다.
우리는 정규화된 Muon에 의해 유도된, 행렬값 파라미터에 정의된 확률 측도 공간 위의 gradient flow를 개발한다. 이는 분석적으로 스무딩된 버전이다.
대형 언어 모델(LLMs)은 분류 작업에서 인간의 의사결정을 돕고 향상시킬 잠재력이 있습니다. 이는 비교적 정확한 예측을 제공하는 것뿐만 아니라…
인과 생성 모델링은 반사실적 추론이 가능한 신뢰할 수 있고 투명한 AI 시스템을 개발하는 데 필수적입니다. 기존 접근 방식은 …
Knowledge distillation은 일반적으로 강한 teacher가 약한 teacher보다 더 나은 student를 만든다는 강‑약 관계를 전제로 합니다. 본 연구에서는 이 가정을 검토합니다.
Bradley-Terry-Luce (BTL) 모델 추정은 pairwise comparisons 데이터셋이 주어졌을 때 아이템 컬렉션을 순위 매기는 잘 확립된 전략이다. 비록 ...
우리는 하이퍼넘미—일반 개념과 구체 개념 사이의 “is-a” 관계—가 언어 표현에서 어떻게 기하학적으로 인코딩되는지에 대한 분포론적 이론을 제안한다.
우리는 클래식한 Preisach 히스테리시스 연산자를 기반으로 한 새로운 시퀀스 모델링 아키텍처인 Preisach Attention Layer (PAL)를 소개합니다.
Long-horizon language agents는 많은 설득력 있는 로컬 툴 호출을 할 수 있지만, 실제로 요청된 카운트가 완료될 때까지 지속하지 못합니다. 우리는 이 격차를 Qua…로 연구합니다.
엔터프라이즈 AI 시스템은 대형 언어 모델, 검색 파이프라인 및 자율 에이전트를 기반으로 구축되며, 전통적인 소프트웨어 품질…
AI 지원 코드 리뷰 도구는 일반적으로 '전문 리뷰어' 에이전트와 같이 작동하여, 필요한 분석 유형에 관계없이 동일한 결과를 도출합니다. We p...
대다수의 소프트웨어 개발자들은 개발 프로세스에서 인공지능(AI) 도구를 사용하고 있거나 사용할 계획입니다. 그들의 주요 이유에는 impr...
Tokenisation은 현재 NLP 파이프라인의 필수 요소입니다. BPE와 Unigram과 같은 현재의 tokenisation 알고리즘은 탐욕적인 알고리즘으로, 지역적으로…
언어 모델은 이제 새로운 환경에 즉시 일반화하고, AlphaEvolve와 같은 inference-scaling 검색 절차 내에서 작동해야 하며, r…
Robustness, domain adaptation, photometric 및 occlusion invariance, compositional generalisation, temporal robustness, alignment safety, 그리고 classical anisotropy...
대규모 언어 모델(LLMs)은 일반적으로 섞인 코퍼스(shuffled corpora)로 훈련되어, 훈련 시점에 지식이 고정되고 시간적 기반(temporal grounding)이 …
오늘날, tool-calling agents는 입력 명령, agent responses 및 관련된 execution traces와 같은 static datasets에 대해 일반적으로 평가되거나 테스트됩니다.
천 뇌 이론(TBT)과 오픈소스 Monty 프레임워크는 감각‑운동 추론을 통해 객체 인식을 모델링합니다 — 객체를 능동적으로 …
Pretrained diffusion models는 frozen teachers 역할을 하여 텍스트-투-3D, single-step distillation, data attribution과 같은 downstream pipelines에 공급됩니다. The teache...
하이퍼파라미터 전이는 작은 규모에서 최적의 최적화 하이퍼파라미터를 대규모로 외삽할 수 있게 해주어, 대규모 언어 모델을 학습하는 데 필수적입니다.
Equivariant graph neural network (GNN) 방법은 항체 보체결합부위(CDR) 설계에서 가장 높은 서열 복구율을 달성하지만 …
동역학적 Sunyaev‑Zel'dovich (kSZ) 효과의 정밀 측정 – 대규모 바리온 물질 분포를 탐구하는 도구이며, 우주론에서 핵심적인 관측량이다.
Visual Question Answering (VQA) 벤치마크는 주로 시각적 내용만으로 해결할 수 있는 인지 기반 과제에 중점을 두어 왔습니다. 반면, 많은 실제…
관계 예측 작업은 데이터가 자연스럽게 관계형 데이터베이스(RDBs)에 저장되는 많은 실제 응용 분야에서 기본적입니다. Relational Deep Learning…
Reinforcement learning with verifiable rewards (RLVR)은 대형 언어 모델(LLMs)의 추론을 개선하기 위한 지배적인 패러다임이 되었지만, 그 근본적인…
검증 가능한 보상으로부터의 강화 학습(RLVR)은 대형 언어 모델의 추론 능력을 향상시키는 핵심 기술로 부상했습니다. Desp...
우리는 Mem-π를 제시합니다. 이는 대형 언어 모델(LLM) 에이전트에서 적응형 메모리를 위한 프레임워크로, 유용한 가이드를 검색하는 대신 필요에 따라 생성합니다…
자율 조작 시스템은 놀라운 능력을 달성했지만, 공유 제어에서 인간 전문지식과 diffusion-based policies를 통합하는 것은 아직 과제로 남아 있다.
플래너가 순차적 의사결정 문제에 대한 사전 학습된 시뮬레이터를 가지고 있으며 현장에서 실제 실험을 수행할 옵션이 있다고 가정해 보자. 시뮬레이터는 쿼리 비용이 저렴하고…
AI agents가 code development와 maintenance에 점점 더 기여함에 따라, quality와 risk characteristics에 대한 empirical evidence는 여전히 제한적이다.
Vision-language models (VLMs)는 특히 gameplay glitch detection을 위해 video game quality assurance 분야에서 점점 더 많이 탐구되고 있습니다. 대부분의 기존 평가, ...
대형 언어 모델(LLM) 추론은 현대 데이터 센터에서 지배적인 작업 부하가 되었으며, GPU 활용도와 에너지 소비를 크게 증가시킵니다. While pr...
서드파티 Python 라이브러리는 의존성 관리 오버헤드, 공급망 위험, 그리고 제한된 환경에서의 배포 마찰을 초래합니다. 자연스러운 질문은…
장기적인 코딩 에이전트가 개발자가 검토할 수 있는 양보다 더 많은 코드를 생성함에 따라, 감독은 단일 표면, 즉 automated test suite에 집중됩니다. Reward hacki...
The Algebraic Mind에서 Gary Marcus는 충분히 적절한 인지 구조에 필수적인 세 가지 구성 요소를 확인했습니다: 변수에 대한 연산, 재귀적으로 구조화된 …
LLM 에이전트의 실패를 진단하는 것은 여전히 대부분 수동적입니다. 실무자들은 작은 부분의 execution traces를 검사하고, 즉석 가설을 세우며, 반복합니다. This pr...
현대 LLM 서빙은 더 이상 균일하거나 단일체가 아닙니다. 생산 시스템은 이제 disaggregated execution, 복잡한 parallelism, runtime optimizations, …
최근 추세는 machine learning 모델을 활용하여 evolutionary design 및 optimization process를 개선하는 것입니다. 우리는 새로운 transformer-based mutation을 제안합니다.
AlltoAll 디스패치는 MoE 전문가 병렬 처리의 주요 병목 현상이며, 인터커넥트 커뮤니티는 네 가지 종류의 완화 방안으로 대응했습니다: predicti...
통신은 분산 학습에서 주요 병목 현상이며, 특히 대규모 설정 및 느린 링크를 가진 연합 학습 환경에서 그렇다. 세 가지 …
모듈러 연산으로 훈련된 Transformers는 memorization, generalization, collapse 사이에 급격한 전이를 보인다. 우리는 weight decay가 …
전기뇌파(EEG) 신호로부터 보편적인 표현을 학습하는 것은 신경정보학 및 뇌-컴퓨터 인터페이스 분야의 최첨단 접근법이다.
고급 이미지 편집 소프트웨어는 매우 설득력 있는 이미지 조작을 쉽게 만들 수 있게 해 주며, 최근 몇 년간 ... 때문에 더욱 접근성이 높아졌습니다.
Production LLM agents는 stochastic 모델 출력과 deterministic software systems를 결합하지만, 두 사이의 경계는 거의 first‑class로 다뤄지지 않는다.
Power grid는 현대 사회와 그 서비스 전반을 뒷받침하는 핵심 인프라입니다. 그 효율성을 유지하려면 지속적인 적응이 필요합니다.
Bangladesh의 haor wetlands에서 Flash floods가 거의 경고 없이 나타납니다. 이들은 연간 boro rice 수확을 파괴합니다. 현재 시스템은 riverine floods에 맞게 구축되어 있어…