[Paper] MedObvious: Clinical Triage를 이용한 VLM에서의 Medical Moravec's Paradox 공개
Vision Language Models (VLMs)는 의료 보고서 생성 및 visual question answering과 같은 작업에 점점 더 많이 사용되고 있습니다. 그러나 fluent diagnostic text는 …
4486 posts from this source
Vision Language Models (VLMs)는 의료 보고서 생성 및 visual question answering과 같은 작업에 점점 더 많이 사용되고 있습니다. 그러나 fluent diagnostic text는 …
인터리브된 생성이 가능한 Unified models가 유망한 패러다임으로 떠오였으며, 커뮤니티는 점점 더 autoregressive modeling에 집중하고 있다...
동적 시스템 이론과 강화 학습은 세계의 진화를 행동에 의해 구동되는 latent-state dynamics로 보고, visual observations는 부분적인 ...
자유기류 속도와 받음각(AoA)과 같은 공기역학 상태 변수의 정확한 추정은 공기역학 하중 예측, 비행 제어 등에 중요합니다.
Large Vision-Language Models (LVLMs)의 효율성을 향상시키기 위한 기존 접근 방식은 주로 visual token reduction 개념에 기반하고 있습니다. This approa...
Diffusion 및 flow matching 모델은 인터랙티브 이미지와 스트리밍 비디오 생성과 같은 창의적인 콘텐츠 제작을 위한 전례 없는 능력을 열어주었습니다.
Monocular novel-view synthesis는 오랫동안 감독을 위해 multi-view image pairs를 필요로 했으며, 이는 training data scale와 diversity를 제한합니다. 우리는 이것이 반드시 필요하지 않다고 주장합니다.
Event cameras는 마이크로초 해상도로 픽셀당 밝기 변화를 포착하여 RGB 프레임 사이에서 손실되는 연속적인 움직임 정보를 제공합니다. 그러나 기존…
표준 평가 관행은 대형 언어 모델(LLM) 출력이 작업의 맥락적으로 동등한 형식에서도 안정적이라고 가정합니다. 여기서 우리는 이를 테스트합니다.
Agentic multimodal large language models (MLLMs) (예: OpenAI o3 및 Gemini Agentic Vision)은 반복적인 시각 ...
요구사항 엔지니어링은 소프트웨어 개발 과정에서 필수적이면서도 노동 집약적인 단계입니다. 이 기사에서는 ReqFusion: AI‑enhanced 시스템 th...
Video-Action Models (VAMs)는 구현된 지능을 위한 유망한 프레임워크로 부상했으며, 원시 비디오 스트림으로부터 암시적인 세계 역학을 학습하여 t…을 생성합니다.
최근 diffusion-based models는 image inpainting에서 photorealism을 달성하지만 많은 sampling steps가 필요해 practical use가 제한됩니다. Few-step text-to-image models는...
AI 기반 사이버 보안 시스템은 파편화된 이벤트 중심 텔레메트리 표현 때문에 교차 환경 배포 시 종종 실패합니다. 우리는 Canon을 소개합니다.
TRAP 프로토콜은 책임 있는 합의와 일회성 BFTCR 최종 단계(One‑shot BFTCR finalization phase)를 결합하여 합리적 합의(rational agreement)를 해결합니다. 우리는 SNARE(Scalable Nash Agreement…)를 제시합니다.
Mutation testing은 프로그램에 인위적인 결함을 도입하여 테스트 스위트의 효과성을 평가하는 기법입니다. 비록 mutation testing 플러그인들은…
머신러닝(ML) 알고리즘을 사물인터넷(IoT) 애플리케이션에 통합함으로써 상당한 장점과 함께 취약점도 도입되었습니다.
머신러닝 모델은 구조화된 또는 비구조화된 현실 세계의 역학 때문에 배포 후 새로운 데이터에 적응해야 할 필요가 자주 있습니다. 지속 학습(Continual Learning, CL) 프레임...
스케일링 강화 학습(RL)은 특히 요구되는 작업에서 대형 언어 모델(LLM)의 추론 능력을 향상시키는 데 강력한 가능성을 보여주었습니다.
기존 멀티모달 대형 언어 모델(MLLMs)은 3D 공간 추론에 어려움을 겪으며, 3D 환경에 대한 구조화된 추상화를 구축하지 못합니다.
에너지 기반 모델은 그래프와 같은 이산 도메인에서 상대적 가능성을 명시적으로 포착하여, 자연스럽게 조합 가능한 확률 추론 작업을 가능하게 한다.
데이터베이스에 대한 자연어 인터페이스(NLIDB)를 구축하는 작업은 최근 데이터베이스와 자연어 처리 분야 모두에서 큰 관심을 받고 있습니다…
데이터 활용 효율성을 향상시키는 것은 트래젝터리 생성 비용이 높은 장기 과제에 대해 강화학습(RL)을 확장하는 데 필수적입니다. 어떻게…
Temporal Relation Extraction (TRE)은 두 사건 또는 시간 표현이 시간적으로 어떻게 관련되어 있는지를 식별하는 것을 요구합니다. 기존의 attention‑based models는 종종 …
LLMs은 전 세계에 배포되지만, 훈련 데이터가 풍부한 문화에 편향된 응답을 생성한다. 기존의 cultural localization 접근 방식인 prompting…
Benchmarks와 leaderboards는 NLP가 진행 상황을 가장 많이 전달하는 방식이지만, LLM 시대에는 점점 오해하기 쉬워지고 있습니다. Scores는 benchmark를 반영할 수 있습니다.
중앙 집중식 아이덴티티 관리 시스템은 지속적으로 보안 및 프라이버시 문제에 직면하고 있어, 탈중앙화 아이덴티티(Decentralized Identity, DI)와 S...
Microservice 기반 애플리케이션은 장기 꼬리 실행 패턴과 이질적인 자원 제약으로 인해 발생하는 확률적 지연을 특징으로 합니다.
Deep reinforcement learning (DRL)은 복잡한 의사결정 문제를 해결하기 위한 강력한 패러다임으로 부상했습니다. 그러나 DRL 기반 시스템은 여전히 signifi...
Architectural patterns는 다양한 소프트웨어 아티팩트에서 자주 발견됩니다. 패턴과 그 구현의 다양성으로 인해 탐지가 어려워집니다.
Retrieval-Augmented Generation (RAG) 시스템은 보조적으로 검색된 문서를 통합함으로써 대형 언어 모델(LLMs)의 성능을 향상시키고, …
우리는 Dual-View Pheromone Pathway Network (DPPN)를 소개한다. 이 아키텍처는 희소 어텐션을 지속적인 페로몬 필드를 통해 잠재 슬롯 위에 라우팅한다.
완전하게 프로비저닝된 Message Passing Interface (MPI) 병렬 처리는 Computational Fluid Dynamics (CFD) 솔버에 대해 거의 최적에 가까운 실제 실행 시간을 달성합니다. 이 연구는 …
스마트폰, 전자상거래, 협업 플랫폼, LLM 등을 사용할 때를 생각해 보면, 컴퓨터와의 대부분 상호작용은 인터랙티브하며 종종 즉각적인 반응을 요구합니다.
대규모 분산 학습은 d‑길이 파라미터 벡터에 대해 훈련 데이터셋에 의존하는 손실 함수 L을 최소화하는 것을 목표로 합니다. The distri...
생물학적 신경망은 평생 동안 경험에 반응하여 지속적으로 적응하고 스스로를 수정합니다 — 인공…
1980년대에 고성능 컴퓨팅(HPC)은 개방형(비국방) 과학 및 공학 연구 커뮤니티에서 또 다른 연구 도구가 되었다. 그러나,…
Diffusion Transformers (DiTs)는 고충실도 비디오 월드 모델을 구동하지만, 순차적 디노이징과 비용이 많이 드는 시공간 처리 때문에 계산 비용이 많이 듭니다.
긴 비디오 이해는 제한된 컨텍스트 윈도우 때문에 멀티모달 대형 언어 모델(MLLMs)에게 여전히 도전 과제이며, 이는 희소한 q...
Latent diffusion models (LDMs)는 학습된 잠재 공간에서 작동함으로써 고품질 합성을 가능하게 합니다. 그러나 최첨단 LDM을 훈련하려면 복잡한 st...
우리는 UniMotion을 제시합니다. 우리가 알기로는 인간 동작, 자연어, 그리고 RGB 이미지의 동시 이해와 생성을 위한 최초의 통합 프레임워크입니다.
최근 잠재 세계 모델(예: V-JEPA2)의 발전은 비디오 관찰을 통해 미래 세계 상태를 예측하는 데 유망한 능력을 보여주었습니다. 그럼에도 불구하고, ...
Vision-Language-Action (VLA) 모델은 시각 관찰과 언어 지시를 직접 로봇 행동으로 매핑합니다. 간단한 작업에 효과적이지만, 표준 VL…
많은 멀티모달 작업, 예를 들어 image captioning과 visual question answering은 vision-language models (VLMs)가 객체와 그 속성을 연관시키도록 요구한다.
Weight-Decomposed Low-Rank Adaptation (DoRA)는 LoRA를 확장하여 가중치 크기와 방향을 분리하지만, 그 forward pass는 W + ...의 row-wise norm을 필요로 합니다.
최근 생성 잠재 공간(generative latent spaces)의 발전이 단일 이미지 생성(single-image generation)에서 상당한 진전을 이끌었지만, 새로운 시점 합성(novel view synthesis)을 위한 최적의 잠재 공간은…
Diffusion 기반 비디오 초해상도(VSR)는 최근 눈에 띄는 높은 충실도를 달성했지만 여전히 금지할 정도의 샘플링 비용이 문제입니다. While distribution mat...
우리는 TiCo라는 간단한 post‑training 방법을 제안한다. 이 방법은 spoken dialogue models (SDMs)가 시간 제한이 있는 지시를 따르고, 응답을 생성하도록 한다.