[Paper] 멀티모달 도메인 일반화에서 진전이 있나요? 포괄적인 Benchmark Study
멀티모달 도메인 일반화(MMDG)가 모델 견고성을 향상시키기 위해 점점 인기를 얻고 있음에도 불구하고, 보고된 성능 향상이 실제로 ...
멀티모달 도메인 일반화(MMDG)가 모델 견고성을 향상시키기 위해 점점 인기를 얻고 있음에도 불구하고, 보고된 성능 향상이 실제로 ...
Large language models (LLMs)은 점점 더 인터랙티브 에이전트로 사용되고 있지만, 장기 의사결정을 위해 이를 최적화하는 것은 현재… 때문에 여전히 어렵다.
세라믹 유약을 개발하는 것은 복잡한 화학 때문에 비용이 많이 들고 시간도 많이 소요되는 시행착오 과정이며, 이는 독립 아티스트에게 큰 부담을 줍니다. ...
우리는 Recursive Agent Optimization (RAO)이라는 강화 학습 접근법을 도입한다. 이는 재귀 에이전트(recursive agents)를 훈련하기 위한 방법으로, 재귀 에이전트는 하위 작업을 spawn하고 delegate할 수 있다.
사람 재식별(person re-identification)이 눈에 띄는 진전을 이루었지만, 장애물에 의해 발생하는 가림(occlusion)은 실제 적용에서 아직 해결되지 않은 문제로 남아 있다. 어려움은...
대규모 언어 모델(LLMs)은 수백 개의 웹 소스에서 정보를 종합하여 인용된 보고서로 만드는 딥 리서치 에이전트를 구동하지만, 이러한 인용은 …
우리는 두 개의 domain-adapted 모델 간의 agreement를 활용하여 제2언어(L2) 한국어 morphosyntactic annotation을 위한 간소화된 human-in-the-loop 워크플로우를 제안한다.
대규모 언어 모델(LLM) 기반 멀티에이전트 시스템(MAS)은 복잡한 협업 작업을 해결하는 데 가능성을 보여주었으며, 여기서 에이전트는 일반적으로 조정됩니다.
Sparse Autoencoders (SAEs)는 메커니즘 해석에서 중요한 도구가 되었으며, Large Language Models (LLMs)에서 내부 표현을 분석하는 데 도움을 줍니다.
Contrastive language-image pretraining (CLIP)은 두 가지 구조적 약점이 있다: 대칭적인 InfoNCE loss는 일치하지 않는 쌍들 사이의 상대적 순서를 무시한다...
camera geometry를 추정하는 것은 일반적으로 multivariate polynomial equations의 시스템으로 구성된 minimal problems를 해결하는 것을 포함하며, 이는 종종 계산적으로 …
사물인터넷(IoT) 및 산업용 사물인터넷(IIoT)의 급속한 확장은 대규모이면서 이질적인 공격 표면을 만들어내어 전통적인 …에 도전한다.
대규모 언어 모델은 autoregressive paradigm 하에서 눈부신 성공을 거두었지만, 고품질 텍스트 생성이 고정된 left‑to‑right 흐름에 얽매일 필요는 없습니다.
Large Language Model (LLM) 에이전트는 느슨한 사양 하에서 자율 코드 생성에서 강력한 성능을 보여줍니다. 그러나 프로덕션 급 소프트웨어는…
지구상의 생명의 특징은 에이전트가 인과적 파워를 발휘하고 이후 사건들의 드라이버가 될 수 있는 능력이다. 이는 모든 규모의 인지에 핵심이다. 인과적 ...
Large language model systems은 추론, tool use, memory, iterative refinement를 교차시키는 agentic workflows로 점점 더 많이 활용되고 있습니다. 이러한 시스템은...
많은 실제 최적화 문제는 고도로 결합된 여러 하위 문제들로 구성되어 있으며, 이들의 해결책을 조정하여 전체 성능을 높여야 합니다. H...
대형 언어 모델(LLM)은 이제 소프트웨어 개발 워크플로에 크게 관여하고 있으며, 이들이 생성하는 코드는 일반적으로 third-party library (TPL)를 포함합니다.
대형 모델이 대화형 어시스턴트에서 자율 에이전트로 진화함에 따라, 장기 의사결정, 도구 사용, 그리고 rea...
샌프란시스코 팔레스 오브 파인 아츠에서 지난주 Dreame Next 2026 Tech Summit이 열렸다. 사진: Kelsey McClellan / The Verge 개요 수백 명의 인플루언서,…
우리는 다섯 가지 속성 유형(memory safety, overflow, termination, reachability, data races)에 걸친 500개의 C 검증 과제에 대한 평가 프레임워크를 소개합니다.
타이핑은 줄이고, 탱킹은 늘리세요. 빠른 로그인은 게임 액션에 더 많은 시간을 의미합니다 — 그리고 이번 주에 GeForce NOW https://www.nvidia.com/en-us/geforce-now/ 멤버십을 제공합니다.
수년 동안 우리는 LLM 서빙 시스템을 다른 중요한 인프라와 마찬가지로 구축해 왔습니다: 단일 범용 스택, 수많은 엔지니어‑연도에 걸쳐 손수 튜닝된, …
고용량 연관 기억 모델, 예를 들어 Kernel Logistic Regression (KLR) Hopfield networks와 같은 모델은 강력한 저장 능력을 보여주었지만 일반적으로…
Linear Attention (LA)는 자기‑attention의 제곱 복잡성을 피함으로써 대형 언어 모델(LLMs)을 긴 시퀀스로 확장하는 유망한 패러다임을 제공합니다.
Automation, Wage Premiums, 그리고 U.S. Inequality automation과 artificial intelligence가 일자리를 대체한다는 이야기를 들을 때, 기술의 쓰나미처럼 느껴질 수 있습니다...
우리는 Graph Normalization (GN)을 소개한다. 이는 그래프 위의 원칙적인 동적 시스템으로, NP‑hard인 Maximum Weight 문제에 대한 미분 가능한 근사 엔진 역할을 한다.
Dense 3D reconstruction 및 tracking of dynamic scenes from monocular video는 컴퓨터 비전에서 중요한 미해결 과제로 남아 있습니다. 이 분야의 진전은 …
우리는 이미지 생성용 Diffusion Transformers(DiTs)에서 이상치 토큰을 연구한다. 이전 연구에서는 Vision Transformers(ViTs)가 소량의 ...
본 연구는 Linear Congruential Generator (LCG)의 특수 변형을 기반으로 하는 새로운 결정론적 최적화 알고리즘을 제시한다. 기존 알고리즘...
문법성(Grammaticality)과 가능도(likelihood)는 인간 언어에서 구별되는 개념이다. 사전 학습된 언어 모델(Pretrained language models, LMs)은 언어의 확률적 모델이며…
Long-horizon search agents는 추론하고 도구를 호출하며 정보를 관찰함에 따라 급격히 증가하는 working context를 관리해야 합니다. 모든 중간 결과를 무작정 누적하는 것은…
dtimes d 선형 메모리는 얼마나 많은 키-값 연관을 저장할 수 있을까? 우리는 답이 메모리 행렬의 d² 자유도에만 의존하지 않는다는 것을 보여준다,…
이 논문은 LoViF 2026 PhyScore 챌린지에 대해 보고한다. 이 챌린지는 2D와 4D 유전자를 아우르는 세계 모델이 생성한 비디오에 대한 전체적인 품질 평가를 목표로 하는 대회이다.
딥 서치는 최첨단 멀티모달 에이전트에게 중요한 역량이 되었으며, 모델이 능동적인 검색과 증거 검증을 통해 복잡한 질문을 해결할 수 있게 합니다.
Pre-trained transformers는 프롬프트의 일부로 제공된 예시들로부터 weight updates 없이 학습할 수 있는 놀라운 능력인 in-context learning을 수행할 수 있다.
배경: 기존 MRI LLM 벤치마크는 주로 리뷰 책의 객관식 질문에 의존하고 있으며, 최고 상용 모델들이 이미 높은 점수를 받아 차별성을 제한하고 있다.
Behavior Cloning (BC)은 로봇 학습을 위한 매우 효과적인 패러다임으로 부상했습니다. 그러나 BC는 데모 이후 온라인 개선을 위한 자체 가이드 메커니즘이 부족합니다.
Self-consistency는 질문에 대해 여러 개의 샘플링된 답변을 생성하고 그 일치를 측정함으로써 hallucinations를 감지하지만, 이는 반복적인 decoding과 ca…
Evolutionary computation은 오랫동안 high-performance optimization tools와 Darwinian evolution의 rigorous scientific simulations를 모두 제공할 것이라고 약속해 왔습니다.
Physics‑grounded 3D assets를 합성하는 것은 인터랙티브 가상 세계와 embodied AI에 대한 중요한 병목 현상이다. Existing methods는 주로 static …
Zero-shot anomaly localisation via vision-language models (VLMs)은 희귀 병리 검출을 위한 매력적인 접근법을 제공하지만, 그 성능은 근본적으로…
우리는 22개 언어에 걸친 이진 분류 작업인 SemEval-2026 Task 9: Multilingual Polarization Detection을 위한 시스템을 소개합니다. 우리의 접근 방식은 ...
Transformer 아키텍처는 시계열 예측에 널리 채택되고 있지만, NLP에서 그들을 강력하게 만드는 표현 메커니즘이 실제로…
간략히! 캘리포니아 주 호손에 있는 SpaceX 본사 https://techcrunch.com/wp-content/uploads/2024/07/GettyImages-1240619050.jpg?w=1024 이미지 출처: Alisha...
Learned codecs가 hard‑coded traditional counterparts에 비해 제공하는 주요 차별점 중 하나는 바로 …에 직접 최적화할 수 있는 능력이다.
이 논문은 고등학생 및 초기 대학생 팀이 대학원 연구자들의 멘토링 아래 수행한 AI 연구 프로젝트를 반영한다...
Large Language Models (LLMs)은 설득력은 있지만 사실이 아닌 내용을 자주 생성하는데, 이는 hallucination이라고 알려진 현상입니다. 기존의 detection methods는 전형적으로…