computer vision — Page 10

정렬:

2개월 전 · ai · - · -

[Paper] CLIP 기반 의미 정렬을 이용한 웹 규모 멀티모달 요약

우리는 Web-Scale Multimodal Summarization을 소개합니다, 웹 소스에서 검색된 텍스트와 이미지 데이터를 결합하여 요약을 생성하는 경량 프레임워크입니다. G...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] GOT-JEPA: Joint-Embedding Predictive Architecture를 활용한 모델 적응 및 가림 처리 기반 일반 객체 추적

인간 시각 시스템은 현재 관찰과 이전에 관찰된 정보를 통합하고, 목표와 장면의 변화에 적응하며, 추론을 통해 객체를 추적합니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 플라톤식 표현 가설 재검토: 아리스토텔레스적 관점

Platonic Representation Hypothesis은 신경망의 표현이 현실에 대한 공통 통계 모델로 수렴하고 있다고 제안합니다. 우리는 … 보여줍니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

Haar Cascades에서 YOLO로: 얼굴 검출 마이그레이션 가이드

여전히 프로덕션에서 실행되는 15년 된 코드 Haar Cascades는 어디에나 있다. OpenCV의 얼굴 검출기를 사용해 본 적이 있다면, 당신은 해당 방법이 발표된 기술을 사용한 것이다.

#face detection #Haar Cascades #YOLO #OpenCV #computer vision #model migration #deep learning
2개월 전 · ai · - · -

[Paper] 효과적인 것을 모방하기: Simulation-Filtered Modular Policy Learning from Human Videos

인간의 videos를 보면서 manipulation skills를 학습하는 능력은 robot learning을 위한 매우 확장 가능한 새로운 데이터 소스를 열 수 있는 잠재력을 가지고 있다. 여기서,…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] FlexAM: 유연한 Appearance-Motion 분해를 통한 다목적 비디오 생성 제어

효과적이고 일반화 가능한 제어는 비디오 생성에서 여전히 중대한 과제이다. 많은 방법이 모호하거나 작업 특화된 신호에 의존하고 있지만, 우리는 주장한다...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Monocular Markerless Motion Capture가 Upper Extremity Reachable Workspace의 정량적 평가를 가능하게 한다

단일(모노큘러) 카메라와 인공지능을 사용하여 Upper Extremity Reachable Workspace (UERW)를 정량화하는 임상적으로 접근 가능한 방법을 검증하기 위해.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] LongStream: 긴 시퀀스 스트리밍 자기회귀 시각 기하학

Long-sequence streaming 3D reconstruction은 여전히 중요한 미해결 과제이다. 기존의 autoregressive models는 긴 시퀀스를 처리할 때 종종 실패한다. They t...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Diffusion Models를 활용한 얼굴 임베딩 기반 실감 나는 얼굴 재구성

얼굴 인식(FR) 시스템이 발전함에 따라, 프라이버시 보호 얼굴 인식(PPFR) 시스템은 정확한 인식으로 인기를 얻고 있습니다,…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] One-Class Classifiers의 보편적 변환을 이용한 Unsupervised Anomaly Detection

이미지와 비디오에서 이상을 감지하는 것은 산업 검사, computer-assisted diagnosis 등 여러 실제 문제에 필수적인 작업입니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] SIEFormer: 스펙트럴‑해석 가능 및 향상된 Transformer를 이용한 일반화된 카테고리 발견

이 논문은 Spectral-Interpretable and -Enhanced Transformer (SIEFormer)라는 새로운 접근법을 제시하며, 스펙트럴 분석을 활용하여 어텐션을 재해석합니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 악천후 조건에서 자율주행 차량의 Object Detection 견고성

자율주행 기술이 광범위한 채택을 향해 발전함에 따라, 다양한 환경 조건에서 안전한 운영 임계값을 결정하는 것이 중요해지고 있다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 놀라움의 스트로크: 점진적 의미 착시 in Vector Sketching

Visual illusions은 전통적으로 multi-view consistency와 같은 spatial manipulations에 의존합니다. 이번 연구에서는 새로운 Progressive Semantic Illusions, a novel …

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] UniT: 통합 멀티모달 Chain-of-Thought Test-time Scaling

통합 모델은 단일 아키텍처 내에서 멀티모달 이해와 생성을 모두 처리할 수 있지만, 일반적으로 반복 없이 단일 패스로 작동합니다…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] MonarchRT: 실시간 비디오 생성을 위한 효율적인 어텐션

Diffusion Transformers를 이용한 실시간 비디오 생성은 3D self-attention의 2차 비용 때문에 병목 현상이 발생하며, 특히 실시간 환경에서…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] On-Policy SFT를 향하여: Distribution Discriminant Theory 및 LLM Training에서의 응용

Supervised fine-tuning (SFT)은 계산 효율성이 높지만 강화 학습(RL)에 비해 일반화 성능이 종종 떨어집니다. 이 차이는 주로…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] TexSpot: 공간적으로 균일한 Point Latent Representation을 이용한 3D Texture 향상

고품질 3D 텍스처 생성은 현재 주류 멀티‑뷰 디퓨전 파이프라인에 내재된 뷰‑불일치(view‑inconsistency) 때문에 근본적인 과제로 남아 있습니다. ...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] SurfPhase: 희소 비디오에서 얻은 2상 흐름의 3D 계면 역학

두 상 흐름에서의 계면 역학은 운동량, 열, 그리고 물질 전달을 지배하지만, 실험적으로 측정하기는 여전히 어렵습니다. 고전적인 기법들은 침입성…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[논문] GENIUS: 생성형 유동 지능 평가 스위트

Unified Multimodal Models (UMMs)는 시각 생성에서 눈에 띄는 진전을 보여주었습니다. 그러나 기존 벤치마크는 주로 Crystallized Intelligence를 평가하며, w...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] PhyCritic: Physical AI를 위한 멀티모달 Critic 모델

대규모 멀티모달 모델의 급속한 발전과 함께, 신뢰할 수 있는 judge 및 critic 모델은 개방형 평가와 preference alignment에 필수적이 되었습니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 생체 보행 인식을 위한 제1회 국제 StepUP 대회: 방법, 결과 및 남은 과제

Biometric footstep recognition은 걷는 동안 발 아래에 나타나는 사람 고유의 압력 패턴을 기반으로 하는 생체인식 기술로, 응용 분야가 확대되고 있는 신흥 분야입니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] PuriLight: 단일 카메라 깊이 추정을 위한 경량 셔플 및 정화 프레임워크

우리는 경량이면서 효율적인 프레임워크인 PuriLight를 제안한다. 이는 self-supervised monocular depth estimation을 위한 것으로, 계산 효율성의 이중 과제에 대응한다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] SAGE: 스케일러블 에이전틱 3D 씬 생성 for Embodied AI

실제 세계에서 embodied agents를 위한 데이터 수집은 비용이 많이 들고 위험하기 때문에 확장 가능하고 현실적이며 simulator-ready 3D environments가 필요합니다. 그러나 기존…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 양자 다중 회전 평균화

Multiple rotation averaging (MRA)는 3D 비전 및 로보틱스 분야에서 전역적으로 일관된 절대 회전을 복구하는 것을 목표로 하는 기본적인 최적화 문제입니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Olaf-World: 비디오 세계 모델링을 위한 잠재 행동 정렬

액션 라벨의 부족으로 인해 action-controllable world models의 확장이 제한됩니다. latent action learning은 제어 인터페이스를 u...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] VideoWorld 2: 실제 비디오에서 전이 가능한 지식 학습

라벨이 없는 비디오 데이터에서 transferable knowledge를 학습하고 이를 새로운 환경에 적용하는 것은 intelligent agents의 기본적인 능력이다. This work prese...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 다양체 위에서 학습하기: 표준 Diffusion Transformers를 Representation Encoders로 잠금 해제

표현 인코더(representation encoders)를 활용한 생성 모델링(generative modeling)은 효율적이고 고충실도(high-fidelity) 합성을 위한 경로를 제공합니다. 그러나 표준 디퓨전 트랜스포머(diffusion transformers)는 …

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] VLA-JEPA: Vision-Language-Action 모델을 Latent World 모델로 강화

인터넷 규모의 비디오에서 Vision‑Language‑Action (VLA) 정책을 사전 학습하는 것은 매력적이지만, 현재의 latent‑action 목표는 종종 잘못된 것을 학습한다: they r...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 이미지 스플라이싱과 복사-이동 위조를 동일 모델로 탐지할 수 있을까? Forensim: 어텐션 기반 상태 공간 접근법

우리는 Forensim이라는 attention‑based state‑space 프레임워크를 도입하여 이미지 위조 탐지에서 조작된(타깃) 영역과 소스 영역을 동시에 위치 지정한다....

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Vendi Novelty Scores를 이용한 Out-of-Distribution Detection

Out-of-distribution (OOD) detection은 machine learning 시스템을 안전하게 배포하기 위해 중요합니다. 기존의 post-hoc detectors는 일반적으로 model confidence에 의존합니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

3가지 질문: AI를 활용해 올림픽 스케이터가 퀸트를 성공하도록 돕기

올림픽 피겨 스케이팅은 힘들어 보이지 않는다. 선수들은 얼음 위를 미끄러지듯 달리다가 공중으로 솟아올라 팽이처럼 회전하고, 4‑5 mm 두께의 단일 블레이드에 착지한다.

#AI #computer vision #sports analytics #figure skating #optical tracking #MIT #Olympics
2개월 전 · ai · - · -

[Paper] WorldCompass: 장기 월드 모델을 위한 강화 학습

이 연구는 WorldCompass를 소개한다. 이는 장기 시계열, 인터랙티브 비디오 기반 세계 모델을 위한 새로운 강화 학습(RL) 사후 학습 프레임워크이며, ...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Robustness는 Function이며 Number가 아니다: Vision-Based Driving에서 OOD Robustness에 대한 Factorized Comprehensive Study

자율 주행에서의 분포 외(OOD) 견고성은 종종 단일 숫자로 축소되어 정책을 무너뜨리는 요인을 감춥니다. 우리는 환경을 다섯…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] Raster2Seq: 평면도 재구성을 위한 다각형 시퀀스 생성

래스터화된 floorplan 이미지에서 구조화된 vector-graphics 표현을 재구성하는 것은 일반적으로 계산 작업에 필요한 중요한 전제 조건입니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] WorldArena: 퍼셉션 및 임베디드 월드 모델의 기능적 유용성을 평가하기 위한 통합 벤치마크

세계 모델은 행동 조건부 p...를 통해 에이전트가 환경 역학을 추론하도록 함으로써 구현된 지능의 초석으로 부상했습니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

Apple 지원 AI 모델, 무음 비디오에서 소리와 음성 생성

markdown !VSSFlow 데모 이미지 https://9to5mac.com/wp-content/uploads/sites/6/2026/02/vssflow-fi.jpg?quality=82&strip=all&w=1600 VSSFlow – 통합 오디오 생성…

#Apple #VSSFlow #video-to-sound #speech synthesis #multimodal AI #generative audio #computer vision
2개월 전 · ai · - · -

[Paper] SPD-Faith Bench: Chain-of-Thought에서 Multimodal Large Language Models의 충실도 진단 및 향상

Chain-of-Thought 추론은 멀티모달 대형 언어 모델(MLLMs)의 해석 가능성을 높이기 위해 널리 사용되지만, 생성된 ...의 충실도는 아직 충분히 보장되지 않는다.

#research #paper #ai #machine-learning #nlp #computer-vision
2개월 전 · ai · - · -

[Paper] MedMO: 의료 이미지용 멀티모달 대형 언어 모델의 그라운딩 및 이해

멀티모달 대형 언어 모델(MLLMs)은 빠르게 발전했지만, 의료 분야에서의 채택은 도메인 커버리지, 모달리티 정렬, ...에 의해 제한됩니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 비디오 캡슐 내시경 데이터의 신뢰할 수 있는 라벨 오류 탐지

딥 뉴럴 네트워크의 분류 성능은 대규모이며 정확하게 주석이 달린 데이터셋에 대한 접근에 크게 의존합니다. 그러나 의료 영상 분야에서는 이러한 데이터셋을 확보하는 것이…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 중복을 넘어: 작업 복잡성이 VLLM의 Vision Token 특화에 미치는 역할

비전 대형 언어 모델(VLLM)의 비전 능력은 언어 능력에 비해 지속적으로 뒤처져 왔습니다. 특히, 수많은 벤치마크 stu...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] PANC: Prior-Aware Normalized Cut for 객체 분할

완전 비지도 세분화 파이프라인은 가장 눈에 띄는 객체를 단순히 찾으려고 합니다(그 객체가 존재한다면). 그 결과, 문헌에 보고된 대부분의 방법은...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] Prompt Reinjection: 멀티모달 디퓨전 트랜스포머에서 Prompt Forgetting 완화

멀티모달 디퓨전 트랜스포머(MMDiTs)는 텍스트‑이미지 생성에서 텍스트와 이미지 브랜치를 별도로 유지하고, 양방향 정보 흐름을 통해 ...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Vision Transformer 미세조정은 비부드러운 구성 요소에서 이점을 얻는다

Transformer 아키텍처의 부드러움은 일반화, 학습 안정성 및 적대적 견고성 측면에서 광범위하게 연구되어 왔습니다. Ho...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] NanoFLUX: 모바일 기기를 위한 대규모 텍스트-이미지 생성 모델의 증류 기반 압축

대규모 텍스트-이미지 확산 모델이 시각적 품질을 지속적으로 향상시키고 있지만, 그 규모가 커짐에 따라 최첨단 모델 간의 격차가 확대되고 있습니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] RFDM: 효율적인 인과 비디오 편집을 위한 Residual Flow Diffusion Model

Instructional video editing은 텍스트 프롬프트만을 사용하여 입력 비디오에 편집을 적용함으로써 직관적인 natural-language control을 가능하게 합니다. 빠른 진행에도 불구하고, 대부분의 m...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[논문] Pseudo-Invertible Neural Networks

Moore‑Penrose Pseudo‑inverse (PInv)는 선형 시스템에 대한 근본적인 해법으로 작용한다. 본 논문에서는 PInv의 자연스러운 일반화를 제안한다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 거의 엄격한 지속 학습을 위한 공유 LoRA 서브스페이스

대규모 사전학습 모델을 새로운 작업에 효율적이고 지속적으로 적용하는 것은 실제 환경 배포에 필수적이지만, catastrophic forgetting 때문에 여전히 어려운 과제이다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] Perspective Descriptions로부터 Camera Pose 예측을 통한 Spatial Reasoning

다중 이미지 공간 추론은 현재 멀티모달 대형 언어 모델(MLLMs)에게 여전히 도전 과제입니다. 단일 시점 인식은 본질적으로 2D이며, 추론…

#research #paper #ai #computer-vision

Newer posts

Older posts