computer-vision — Page 7

정렬:

1개월 전 · ai · - · -

[Paper] 선형화된 어텐션에서 영향 가변성: 비수렴 NTK 동역학의 이중 함의

주의 메커니즘의 이론적 기반을 이해하는 것은 그 복잡하고 비선형적인 역학 때문에 여전히 어려운 과제이다. 이 연구는 근본적인…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 프랙털을 실용화: Denoising Diffusion as Partitioned Iterated Function Systems

확산 모델이 노이즈를 사진으로 바꿀 때 실제로 무엇을 하고 있는 걸까요? 우리는 결정론적 DDIM 역체인이 Partitioned Iter… 로 작동한다는 것을 보여줍니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 텍스트-투-이미지 모델의 RL 포스트-트레이닝을 위한 Finite Difference Flow Optimization

강화 학습(RL)은 보상 신호로부터 학습을 가능하게 하여, 사후 훈련 diffusion 기반 이미지 synthesis 모델에 대한 표준 기법이 되었다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] EVATok: 적응형 길이 비디오 토크나이제이션을 통한 효율적인 시각 자동회귀 생성

Autoregressive (AR) video generative models는 픽셀을 이산 토큰 시퀀스로 압축하는 video tokenizers에 의존합니다. 이러한 토큰 시퀀스의 길이는 …

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] MM-CondChain: 시각적으로 기반된 깊은 구성적 추론을 위한 프로그램적으로 검증된 벤치마크

멀티모달 대형 언어 모델(MLLMs)은 GUI 탐색과 같은 시각 워크플로를 수행하는 데 점점 더 많이 사용되고 있으며, 다음 단계는 검증된 시각에 따라 달라집니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] OmniStream: 연속 스트림에서 Perception, Reconstruction 및 Action 마스터링

현대의 visual agents는 실시간 스트리밍 환경에서 작동하기 위해 일반적이고 인과적이며 물리적으로 구조화된 표현을 필요로 합니다. 그러나 현재...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] GRADE: 이미지 편집에서 전문 분야 기반 추론 벤치마킹

Unified multimodal models는 공동 이해, 추론 및 생성에 초점을 맞추지만, 현재의 image editing benchmarks는 대부분 자연 이미지에 국한되어 있다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 비디오 스트리밍 사고: VideoLLMs는 동시에 시청하고 생각할 수 있다

온라인 비디오 대형 언어 모델(VideoLLMs)은 반응성 있는 실시간 상호작용을 지원하는 데 중요한 역할을 합니다. 기존 방법들은 streaming percept…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 잠재 색 서브스페이스: 고차원 혼돈에서의 자생적 질서

텍스트-이미지 생성 모델은 빠르게 발전했지만, 생성된 이미지에 대한 세밀한 제어를 달성하는 것은 여전히 어려우며, 이는 주로 제한된 …

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] Spatial-TTT: 스트리밍 비주얼 기반 공간 인텔리전스와 Test-Time Training

인간은 시각적 관찰의 스트림을 통해 현실 세계의 공간을 인지하고 이해한다. 따라서, 공간 증거를 스트리밍 방식으로 유지하고 업데이트하는 능력이 필요하다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] DVD: 생성 사전이 적용된 결정론적 비디오 깊이 추정

기존 비디오 깊이 추정은 근본적인 트레이드오프에 직면합니다: 생성 모델은 확률적 기하학적 환각과 스케일 드리프트에 시달리는 반면, discrimi...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] SciMDR: 벤치마킹 및 과학적 멀티모달 문서 추론 향상

과학적 멀티모달 문서 추론 데이터셋을 구축하는 것은 foundation model 훈련을 위해 규모(scale), 충실도(faithfulness), 현실성(realism) 사이의 내재된 트레이드오프를 포함한다.

#research #paper #ai #machine-learning #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] RDNet: 영역 비율 인식 동적 적응형 Salient Object Detection 네트워크 (광학 원격 탐사 이미지)

원격 감지 이미지에서의 Salient object detection (SOD)은 객체 크기의 큰 변동과 self-att의 계산 비용 등으로 인해 상당한 도전에 직면하고 있다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] V2M-Zero: Zero-Pair 시간 정렬 Video-to-Music 생성

비디오 이벤트와 시간적으로 일치하는 음악을 생성하는 것은 기존 텍스트-투-뮤직 모델들에 있어 어려운 과제이며, 이 모델들은 세밀한 temporal control이 부족합니다. 우리는 ...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] 너무 선명해서 현실 같지 않은가? 벤치마킹 및 보정 Generative Color Fidelity

최근 텍스트‑투‑이미지 (T2I) 생성 분야의 발전으로 시각적 품질이 크게 향상되었지만, 실제 사진처럼 시각적으로 진짜 같은 이미지를 생성하는 것은 여전히 어려운 문제입니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 데이터 통계에서 특징 기하학으로: 상관관계가 중첩을 형성하는 방식

기계론적 해석성(mechanistic interpretability)의 핵심 아이디어는 신경망(neural networks)이 차원보다 더 많은 특징(features)을 표현하고, 이를 중첩(superposition) 형태로 배열한다는 것이다…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] ReCoSplat: Render-and-Compare를 이용한 Autoregressive Feed-Forward Gaussian Splatting

온라인 새로운 뷰 합성은 여전히 어려운 과제로, 순차적이고 종종 포즈가 지정되지 않은 관측으로부터 강인한 장면 재구성이 필요합니다. 우리는 ReCoSplat을 제시합니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 전체 슬라이드 난이도를 활용한 Multiple Instance Learning으로 전립선암 등급 매기기 개선

다중 인스턴스 학습(MIL)은 슬라이드 수준 진단으로 전체 슬라이드 이미지(WSI)를 분류하는 조직병리학에 널리 적용되어 왔습니다. 실제 정답이…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 이미지 없이도 문제없음: 언더샘플링된 k-Space 기반 엔드투엔드 다중 작업 심장 분석

전통적인 임상 CMR 파이프라인은 순차적인 ‘reconstruct-then-analyze’ 패러다임에 의존하여, 회피 가능한 불안정한 중간 단계를 강요한다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] Target-Only Margin Disparity Discrepancy를 이용한 비지도 도메인 적응

중재 방사선학에서, Cone‑Beam Computed Tomography (CBCT)는 최소 침습 ... 동안 실무자에게 안내를 제공하는 유용한 영상 모달리티입니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 세분화된 모션 검색: 관절각 모션 이미지와 토큰‑패치 후기 상호작용

Text-motion retrieval은 자연어 설명과 3D human motion skeleton sequences 사이에 의미적으로 정렬된 latent space를 학습하는 것을 목표로 하며, 이를 통해 b...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 3D Shape Optimization에서 Chamfer Distance의 구조적 실패에 관하여

Chamfer distance는 point cloud reconstruction, completion, generation에 대한 표준 훈련 손실이지만, 이를 직접 최적화하면 더 나쁜 Chamfer …

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[논문] 스케일 스페이스 확산

Diffusion models는 이미지를 노이즈를 통해 손상시키고, 이 과정을 역전하면 타임스텝 전반에 걸친 정보 계층 구조가 드러납니다. Scale-space theory는 유사한…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] HiAR: 효율적인 Autoregressive Long Video Generation via Hierarchical Denoising

Autoregressive (AR) diffusion은 이론적으로 무한한 길이의 비디오를 생성하기 위한 유망한 프레임워크를 제공합니다. 그러나 주요 과제는 템...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Talking Together: 오디오에서 Co-Located 3D 대화 합성

우리는 혼합 오디오 스트림으로부터 두 명의 상호작용하는, 같은 위치에 있는 참가자들의 완전한 3D facial animations을 생성하는 어려운 과제에 도전합니다. 기존에 …

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] ImprovedGS+: 고성능 C++/CUDA 재구현 전략 for 3D Gaussian Splatting

최근 3D Gaussian Splatting (3DGS)의 발전은 reconstruction fidelity와 computational efficiency의 균형에 초점을 맞추게 되었다. 본 연구에서는...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Retrieval-Augmented Gaussian Avatars: 표현 일반화 개선

템플릿이 없는 애니메이션 가능한 헤드 아바타는 피사체의 캡처에서 직접 표현 의존적인 얼굴 변형을 학습함으로써 높은 시각적 충실도를 달성할 수 있습니다, av...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] UNBOX: 자연어를 활용한 블랙박스 시각 모델 공개

open-world visual recognition에서 신뢰성을 보장하려면 모델이 interpretable하고, fair하며, distribution shifts에 robust해야 합니다. 그러나 현대 vision sys...

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] StreamReady: 긴 스트리밍 비디오에서 언제 무엇에 답변할지 학습

Streaming video understanding은 종종 시간에 민감한 시나리오를 포함하고, 모델은 지원 시각 증거가 나타나는 정확한 시점을 답해야 합니다: 답변…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

AI 모델의 예측 설명 능력 향상

고위험 의료 진단에서의 설명 가능성 의료 진단과 같은 고위험 상황에서는 사용자가 컴퓨터 비전 모델이 …

#explainable AI #concept bottleneck modeling #model interpretability #computer vision #medical imaging #deep learning
1개월 전 · ai · - · -

[Paper] Multimodal Large Language Models를 이미지 분류기로

Multimodal Large Language Models (MLLM) 분류 성능은 평가 프로토콜과 ground truth 품질에 크게 의존합니다. MLLM을 비교하는 연구는 w...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Omni-Diffusion: 마스크드 디스크리트 디퓨전을 활용한 통합 멀티모달 이해 및 생성

최근 멀티모달 대형 언어 모델(MLLMs)은 인상적인 발전을 이루었지만, 이들은 주로 기존의 자동회귀(autoregressive) 아키텍처를 기반으로 사용하고 있다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] SCOPE: 장면 맥락 기반 증분 소수 샷 3D 분할

Incremental Few-Shot (IFS) segmentation은 소수의 주석만으로 시간에 따라 새로운 카테고리를 학습하는 것을 목표로 합니다. 2D에서 널리 연구되었지만, 아직 충분히 활용되지…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] SUREON: 수술 추론을 위한 벤치마크 및 비전-언어 모델

외과 의사는 단순히 보는 것이 아니라 해석한다. 전문가가 수술 현장을 관찰할 때, 그들은 사용되는 instrument가 무엇인지뿐만 아니라 왜 선택되었는지도 이해한다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[논문] Penguin-VL: LLM 기반 비전 인코더를 활용한 VLM의 효율 한계 탐구

Vision Language Model (VLM) 개발은 주로 모델 크기 확대에 의존해 왔으며, 이는 컴퓨팅 자원이 제한된 모바일 및 엣지 디바이스에 배포하는 것을 방해합니다. such a...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 자율주행을 위한 Multisource Multimodal Data의 중복성 모델링 및 측정

차세대 자율주행 차량(AV)은 실시간 의사결정을 지원하기 위해 대량의 다중소스 및 다중모달(M^2) 데이터를 활용한다. 실제로, 데이터...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] SurgFormer: 장기 변형의 스케일러블 학습 및 절제 지원과 실시간 추론

우리는 볼륨 메쉬 상에서 데이터 기반 연부 조직 시뮬레이션을 위한 다중해상도 게이트 트랜스포머인 SurgFormer를 소개한다. 고충실도 생체역학 솔버는 …

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] NEGATE: 제한된 의미 가이드를 통한 텍스트-투-비디오 디퓨전에서의 언어적 부정

부정은 기본적인 언어 연산자이지만, diffusion-based generative systems에서는 충분히 모델링되지 못하고 있다. 본 연구에서는 형식적인 접근을 제시한다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Sparse Multi-Camera 설정에서 실시간 3D 스트리밍을 위한 Transformer 기반 Inpainting

고품질 3D 스트리밍은 다중 카메라에서 제공되며, 많은 AR/VR 애플리케이션에서 몰입형 경험을 위해 필수적입니다. 제한된 뷰 수는 종종 실제…

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] 다중모달 평생 이해를 향하여: 데이터셋 및 에이전틱 베이스라인

비디오 이해를 위한 데이터셋이 시간 단위의 길이까지 확장되었지만, 이들은 일반적으로 자연스럽고 즉흥적인(unscripted) 상황과는 다른, 촘촘히 연결된 클립들로 구성됩니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Neural Radiance Fields를 이용한 LWIR 하이퍼스펙트럼 이미지에서 가스 플룸의 3D 장면 이해를 향하여

하이퍼스펙트럴 이미지(HSI)는 환경 모니터링부터 국가 안보에 이르기까지 다양한 분야에 활용되며, 물질 탐지 및 식별에 사용할 수 있습니다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] RealWonder: 실시간 물리적 행동 조건부 비디오 생성

현재 video generation models는 forces와 robotic manipulations와 같은 3D 행동의 물리적 결과를 시뮬레이션할 수 없으며, 구조적 이해가 부족하기 때문입니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] SimpliHuMoN: 인간 동작 예측을 간소화

인간 동작 예측은 trajectory forecasting와 human pose prediction 작업을 결합합니다. 두 작업 각각에 대해, 특화된 models가 개발되었습니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] ZipMap: Linear-Time Stateful 3D 재구성과 Test-Time Training

피드포워드 트랜스포머 모델은 3D 비전에서 급속한 발전을 이끌었지만, VGGT 및 π³와 같은 최첨단 방법은 계산 비용이 규모에 따라 증가합니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] TaxonRL: 해석 가능한 세밀한 시각적 추론을 위한 중간 보상을 활용한 강화학습

전통적인 vision-language 모델은 대비적인 세밀한 분류학적 추론에 어려움을 겪으며, 특히 시각적으로 유사한 종을 구별할 때 그렇다.

#research #paper #ai #nlp #computer-vision
1개월 전 · ai · - · -

[Paper] RANGER: 희소 게이트 Mixture-of-Experts와 Adaptive Retrieval Re‑ranking을 이용한 병리 보고서 생성

병리 보고서 생성은 주로 gigapixel 규모와 복잡한 형태학적 이질성 때문에 비교적 탐구가 부족한 downstream task로 남아 있습니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] Foundation Model 사전 학습 데이터에서 대표성 부족? 원샷 프로브

대규모 Vision‑Language Foundation Models(VLFMs), 예를 들어 CLIP은 이제 다양한 컴퓨터 비전 연구 및 응용 분야의 기반이 되고 있습니다. VLFMs는 종종 ada...

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] Pointer-CAD: B-Rep와 Command Sequences를 포인터 기반 Edges & Faces Selection으로 통합

컴퓨터 지원 설계(CAD) 모델을 구축하는 것은 노동 집약적이지만 엔지니어링 및 제조에 필수적입니다. 최근 대규모 언어 모델(Large Language Models, LL…)

#research #paper #ai #nlp #computer-vision

Newer posts

Older posts