[Paper] MHub.ai: 의료 영상에서 AI 모델을 위한 간단하고 표준화된 재현 가능한 플랫폼
Artificial intelligence (AI)는 이미지 분석을 자동화하고 임상 연구를 가속화함으로써 의료 영상 분야를 변혁시킬 잠재력이 있습니다. 그러나 연구는 …
Artificial intelligence (AI)는 이미지 분석을 자동화하고 임상 연구를 가속화함으로써 의료 영상 분야를 변혁시킬 잠재력이 있습니다. 그러나 연구는 …
Apple 연구원들은 시각 이해와 텍스트‑투‑이미지 생성을 결합한 다중모달 모델인 Manzano에 대한 연구를 발표했으며, 동시에 크게…
Vision-Language-Action (VLA) 작업은 복잡한 시각 장면에 대한 추론과 동적인 환경에서 적응형 행동을 실행하는 것을 요구한다. 최근 연구들은 …
Segment Anything 3 (SAM3)은 비디오에서 지정된 대상들을 강력하게 감지하고, 분할하며, 추적하는 견고한 기반을 구축했습니다. 그러나 원본에서는...
sparse multi-views에서의 3D pose estimation은 action recognition, sports analysis, human-robot interaction 등을 포함한 수많은 응용 분야에서 중요한 과제입니다.
현대의 비디오 생성 모델은 diffusion models에 기반하여 매우 현실적인 클립을 만들 수 있지만, 계산 효율성이 낮아 종종 몇 분이 걸린다.
대규모 언어 모델(LLM)이 계속 확장됨에 따라, 사후 훈련 프루닝은 계산 비용을 줄이면서 성능을 유지하는 유망한 접근법으로 떠올랐습니다.
우리는 STEP3-VL-10B를 소개합니다. 이는 경량의 오픈소스 파운데이션 모델로, 컴팩트 효율성과 최첨단 멀티모달 사이의 트레이드오프를 재정의하도록 설계되었습니다…
모노큘러 비주얼 SLAM은 인터넷 비디오에서 3D 재구성을 가능하게 하고 자원 제한 플랫폼에서 자율 내비게이션을 지원하지만, 스케일 드리프트, i...
장시간 비디오에서 개별 동물을 식별하는 것은 행동 생태학, 야생동물 모니터링 및 가축 관리에 필수적입니다. 전통적인 방법은...
CLIP과 같은 대규모 비전‑언어 모델은 강력한 제로샷 인식을 달성하지만, 사전 학습 중에 거의 보이지 않는 클래스에 대해서는 어려움을 겪습니다, 포함…
단일 이미지에서 물리적으로 정확하고 simulation-ready 의상을 추정하는 것은 image-to-physics 데이터셋이 부족하고 ill-posed 문제이기 때문에 도전적이다.
텍스트-투-이미지 (T2I) 모델은 점점 인기를 얻고 있으며, 온라인에서 AI 생성 이미지의 큰 비중을 차지하고 있습니다. 모델 품질을 비교하기 위해, 투표 기반 리더보드...
GUI 에이전트는 명시적이고 완료 지시 하에 강력한 성능을 보여왔지만, 실제 배포에서는 사용자의 보다 복잡한 구현에 맞추는 것이 필요합니다.
서론 나는 딥러닝이 실제 문제를 해결하는 방식에 항상 매료되어 왔으며, 과일 질병 감지는 완벽한 도전 과제로 보였다—not...
보이지 않는 워터마킹은 AI 생성 이미지 콘텐츠를 인증하는 핵심 메커니즘이 되었으며, 주요 플랫폼들은 대규모로 워터마킹 스킴을 배포하고 있습니다.
SAM2와 같은 비디오 객체 분할 방법은 메모리 기반 아키텍처를 통해 강력한 성능을 달성하지만, 큰 시점 변화에서는 신뢰성 때문에 어려움을 겪는다.
비디오 생성 모델이 급속히 발전하고 있음에도 불구하고, 데이터가 움직임에 미치는 역할은 아직 충분히 이해되지 않고 있다. 우리는 Motive (MOTIon attribution for Vi… )를 제시한다.
강력한 추론 능력을 갖춘 대형 언어 모델(Large Language Models, LLMs)의 최근 발전은 수학, 코딩, 그리고 과학 등 다양한 분야에서 연구를 촉진하고 있습니다.
Tracklet 품질은 대부분의 사람 재식별(ReID) 방법에서 사후 고려 사항으로 취급되는 경우가 많으며, 연구의 대부분은 아키텍처 변형을 제시하는 데 초점을 맞추고 있다.
정확한 개체 식별은 희귀 양서류를 모니터링하는 데 필수적이지만, 침습적인 마킹은 종종 위급히 멸종 위기에 처한 종에게는 부적합합니다. 우리는…
방사선 사진(radiographs)에서 치과 질환을 진단하는 것은 진단 증거가 미묘하기 때문에 시간도 많이 걸리고 어려운 작업입니다. 기존 방법들은 …
이미지 합성 모델의 급속한 등장으로 AI 생성 이미지 탐지기의 일반화에 도전 과제가 제기됩니다. 그러나 기존 방법들은 종종 mo...
조직병리학 분석은 헤마톡실린 및 에오신(H&E) 염색에 의존하지만, 형광 현미경은 보완적인 정보를 제공합니다. 형광을 변환하는…
Chain-of-Thought (CoT) 추론은 단계별 중간 추론을 장려함으로써 대규모 언어 모델을 향상시키는 데 효과적인 것으로 입증되었으며, 최근의 발전…
스마트 홈에서 IoT 센싱 장치가 수집한 데이터를 처리하여 일상 생활 활동(Activities of Daily Living, ADLs)을 비침해적인 센서 기반으로 인식하는 것은 응용을 지원한다.
Large Language Models는 Security Operations Centers에 변혁적인 도구로 등장했으며, automated log analysis, phishing triage, 그리고 malware …을 가능하게 합니다.
우리는 RefVFX라는 새로운 framework을 제시한다. 이 framework은 복잡한 temporal effects를 reference video에서 target video 또는 image로 feed‑forward manner로 전달한다.
Transformer 아키텍처가 많은 분야를 장악하고 있지만, 그 이차적인 self-attention 복잡도는 대규모 응용에서의 사용을 방해한다. Linear attention ...
대형 비전 언어 모델(LVLMs)은 놀라운 능력을 입증했지만, 다중 이미지에 대한 이해와 추론 능력은 여전히…
Remote sensing change detection은 근본적으로 bi-temporal features의 효과적인 융합과 구별에 의존합니다. 기존 패러다임은 일반적으로 …
유럽 우주국(ESA)은 Argonaut 랜더를 이용한 계획된 달 임무에 대한 야망에 힘입어 신뢰할 수 있는 crater detection에 깊은 관심을 가지고 있습니다.
Vision-Language Models (VLMs)가 Computer-Using Agents (CUAs)를 크게 발전시켰지만, 현재 프레임워크는 장기 작업 흐름에서 견고성에 어려움을 겪고 있습니다...
최근 REPA와 같은 연구들은 외부 의미적 특징(e.g., DINO)으로 diffusion 모델을 안내하는 것이 diffusion 모델의 학습을 크게 가속화할 수 있음을 보여주었다.
Large Vision-Language Models (LVLMs)은 비디오 추론에서 근본적인 딜레마에 직면해 있습니다: 이들은 장황한 추론의 과도한 계산 비용과 … 사이에 끼어 있습니다.
본 연구에서는 분류를 지정된 부분(조각)으로 집중시킬 수 있는 Wasserstein distance의 여러 변형을 분석한다.
우리는 UAIT(Uncommon-sense Action Image-Text) 데이터셋을 제안한다. 이는 시각 언어 모델의 의미 이해 능력을 테스트하기 위해 설계된 새로운 평가 벤치마크이다.
LiDAR 기반 point cloud 데이터와 deep neural networks를 활용한 3D object detection은 autonomous driving 기술에 필수적입니다. 그러나 state-of-the-a...
교통 모니터링 및 위반 감지는 겉보기에는 단순해 보이지만 실제 환경에서는 매우 빠르게 복잡해지는 고전적인 computer vision 문제입니다.
“Generative” 함정 최근 AI를 따라오셨다면 절차를 아실 겁니다: Input → Generate. - ChatGPT, Gemini, 혹은 Claude에 프롬프트를 주면 → 그것이 생성합니다…
실제 환경에 배치된 Deepfake 탐지 시스템은 인식할 수 없는 교란을 만들어 모델 성능을 저하시키는 적대자들의 위협을 받는다.
Deformable multi-contrast image registration은 서로 다른 영상 대비 간의 복잡하고 비선형적인 강도 관계 때문에 도전적이면서도 중요한 과제입니다.
최근 비디오 생성 분야의 최신 연구는 확산(diffusion) 및 흐름 매칭(flow‑matching) 모델이 주도하고 있으며, 이 모델들은 고품질 결과를 생성하지만 여전히 계산적으로 비용이 많이 듭니다.
Domain-generalized retinal vessel segmentation은 자동 안과 진단에 중요하지만, non…에 의해 유발되는 도메인 쉬프트로부터 상당한 도전에 직면한다.
Hallucinations, visual input와 일치하지 않는 응답을 생성하는 현상은 대형 vision-language 모델(LVLMs)의 중요한 제한점으로 남아 있으며, 특히 ...
현재 ultra high resolution 이미지의 segmenting 접근 방식은 window를 slide하여 global context를 버리거나, downsample하여 세부 디테일을 잃는 방식입니다. 우리는 ...
최근 deepfake 탐지 방법들은 조작 아티팩트를 드러내기 위해 frequency domain 표현을 점점 더 탐구하고 있으며, 이는 텍스트에서 감지하기 어려운...
Semi-supervised medical image segmentation은 라벨이 제한된 데이터 상황을 해결하기 위한 효과적인 방법입니다. 기존 방법들은 주로 프레임워크에 의존합니다.