computer-vision — Page 17

정렬:

4개월 전 · ai · - · -

[Paper] diffractive decoder를 이용한 Snapshot 3D 이미지 투영

3D image display는 차세대 volumetric imaging에 필수적이지만, 3D image projection을 위한 dense depth multiplexing은 ... 때문에 여전히 어려운 과제입니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 생성형 디지털 트윈: 실행 가능한 산업 시스템을 위한 비전‑언어 시뮬레이션 모델

우리는 시각 및 언어 이해를 통합하여 레이아웃 스케치와 …로부터 실행 가능한 FlexScript를 합성하는 Vision-Language Simulation Model (VLSM)을 제안한다.

#research #paper #ai #machine-learning #nlp #computer-vision
4개월 전 · ai · - · -

[Paper] 프리즘 가설: 시맨틱과 픽셀 표현을 통합 자동 인코딩으로 조화

Deep representations across modalities는 본질적으로 얽혀 있다. 본 논문에서는 다양한 semantic과 …의 spectral characteristics를 체계적으로 분석한다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Interact2Ar: 전신 인간-인간 상호작용 생성 via Autoregressive Diffusion Models

현실적인 human-human interactions을 생성하는 것은 고품질의 개별 body와 hand motion뿐만 아니라 일관된 coor...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 대규모 멀티모달 대응 학습으로 오디오비주얼 인지의 최전선을 확장

우리는 Perception Encoder Audiovisual, PE-AV를 소개합니다. 이는 오디오와 비디오 이해를 위해 스케일된 대조 학습으로 훈련된 새로운 인코더 계열입니다. Built o…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Visual-Aware CoT: 통합 모델에서 고충실도 시각 일관성 달성

최근에 Chain-of-Thought (CoT)의 도입으로 통합 모델의 생성 능력이 크게 향상되었습니다. 하지만 현재 ...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 비디오에서 장면 내 객체 조작의 Zero-shot 재구성

우리는 단일 monocular RGB video에서 장면 내 객체 조작을 재구성하는 문제를 해결하기 위한 최초의 시스템을 구축했습니다. 이는 ill-posed 문제이기 때문에 도전적입니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 실내에서 열린 세계로: MLLMs의 공간 추론 격차 밝히기

멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 의미론적 과제에서 인상적인 성능을 달성했지만, 그들의 공간 지능—견고하고 기반이 되는 …

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] WorldWarp: 비동기 비디오 디퓨전을 통한 3D 기하학 전파

장거리이며 기하학적으로 일관된 비디오를 생성하는 것은 근본적인 딜레마를 제시한다: 일관성은 픽셀 공간에서 3D geometry에 대한 엄격한 준수를 요구하지만, ...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 효율적인 Vision Mamba를 통한 MRI Super-Resolution, 하이브리드 선택 스캐닝

배경: 고해상도 MRI는 진단에 필수적이지만, 긴 촬영 시간 때문에 임상에서의 활용이 제한됩니다. 슈퍼해상도(SR)는 스캔 후 해상도를 향상시킬 수 있습니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Multimodal LLMs를 활용한 아카이브 이미지 스캔으로부터의 역사적 데이터셋 구축: 독일 특허 (1877-1918)

우리는 멀티모달 대형 언어 모델(LLMs)을 활용하여 9,562개의 아카이브 이미지 스캔을 통해 306,070개의 독일 특허(1877‑1918) 데이터셋을 우리 LLM‑b를 사용해 구축합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Beyond CLIP: Knowledge-Enhanced 멀티모달 트랜스포머를 활용한 교차 모달 정렬을 위한 당뇨병성 망막증 진단

당뇨병성 망막증(DR)은 전 세계적으로 예방 가능한 실명의 주요 원인 중 하나이며, 정확한 자동 진단 시스템이 요구됩니다. 일반 도메인 비전‑la…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] MapTrace: 지도 상에서 경로 추적을 위한 확장 가능한 데이터 생성

멀티모달 대형 언어 모델은 많은 시각 및 텍스트 추론 작업에서 인간과 같은 성능을 달성했지만, 세밀한 공간…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] KerJEPA: 유클리드 자기지도 학습을 위한 커널 불일치

최근 self-supervised Joint-Embedding Predictive Architectures (JEPAs) 분야의 획기적인 연구는 Euclidean 표현을 iso... 방향으로 정규화하는 것이 중요함을 입증했습니다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

YOLOv6: 산업용 애플리케이션을 위한 단일 단계 객체 탐지 프레임워크

개요 YOLOv6는 공장, 매장 및 모든 카메라를 위해 설계된 object detection의 새로운 단계입니다. 속도와 신뢰성을 중시하는 팀에 의해 구축되었습니다.

#YOLOv6 #object detection #computer vision #real‑time AI #edge computing #industrial AI #open source
4개월 전 · ai · - · -

[Paper] 당신이 의미하는 바를 지적하라: Visually Grounded Instruction Policy

Vision-Language-Action (VLA) 모델은 시각과 언어를 구현된 제어와 정렬하지만, 텍스트에만 의존할 경우 객체 지시 능력이 제한됩니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] LouvreSAE: 해석 가능하고 제어 가능한 스타일 전이를 위한 Sparse Autoencoders

생성 모델에서의 artistic style transfer는 여전히 중요한 도전 과제이며, 기존 방법들은 종종 모델 파인튜닝이나 추가적인 …

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Delta-LLaVA: 베이스-전-스페셜라이즈 정렬을 통한 토큰 효율적인 비전-언어 모델

멀티모달 대형 언어 모델(MLLMs)은 시각적 및 텍스트 표현을 결합하여 풍부한 추론 능력을 가능하게 합니다. 그러나 높은 계산 비용…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 라벨을 넘어 생각하기: Reasoning-Augmented LMMs를 이용한 Vocabulary-Free Fine-Grained Recognition

Vocabulary-free fine-grained image recognition은 고정된 인간 정의 레이블 세트 없이 메타 클래스 내에서 시각적으로 유사한 카테고리를 구별하는 것을 목표로 합니다. Exi...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 픽셀 공간에서 Ordinal Scoring Correlations를 통한 Shortcut Learning 위치 지정 및 Attribution Representations (OSCAR)

Deep neural networks는 종종 shortcuts을 이용한다. 이러한 shortcuts은 training data에서 output labels와 연관되어 있지만 task semantics와는 무관한 spurious cues이다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

신화: Computer Vision은 이미지에만 효과적이며 그렇지 않다

신화: Computer Vision은 이미지에만 효과적이고 비디오에는 적용되지 않는다. 현실: Computer Vision은 이미지와 비디오 모두를 처리할 수 있다, 기술 발전 덕분에...

#computer vision #video analysis #deep learning #temporal processing #AI myths
4개월 전 · ai · - · -

[Paper] 중세 역사 문서 전사에 대한 딥러닝 접근법의 적용

손글씨 텍스트 인식 및 광학 문자 인식 솔루션은 현대 데이터 처리에서 뛰어난 결과를 보여주지만, 효율성은 La...

#research #paper #ai #machine-learning #nlp #computer-vision
4개월 전 · ai · - · -

Person Re-Identification을 위한 Triplet Loss 옹호

소개 Person re-identification(re-ID)은 서로 다른 카메라 뷰에서 동일한 개인을 찾는 작업입니다. 이는 보안 분야에서 중요한 응용을 가지고 있습니다.

#triplet loss #person re-identification #computer vision #deep learning #metric learning #end-to-end training
4개월 전 · ai · - · -

Momentum Contrastive Learning을 활용한 향상된 베이스라인

개요: 레이블이 없는 데이터로 패턴을 인식하도록 컴퓨터를 가르치는, 즉 unsupervised learning이라고 알려진 방법이 간단한 조정 덕분에 더 접근하기 쉬워졌습니다...

#momentum contrast #MoCo #contrastive learning #unsupervised learning #data augmentation #baseline improvement #computer vision
4개월 전 · ai · - · -

[Paper] 시맨틱과 재구성 모두 중요: 텍스트-투-이미지 생성 및 편집을 위해 표현 인코더 준비하기

현대 잠재 확산 모델(LDM)은 일반적으로 픽셀 수준 재구성을 위해 주로 최적화된 저수준 변분 오토인코더(VAE) 잠재 공간에서 작동합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Re-Depth Anything: 테스트 시 자기지도 재조명을 통한 깊이 정제

단일 카메라 깊이 추정은 여전히 어려운 과제로, Depth Anything V2 (DA-V2)와 같은 최신 기반 모델들은 실제 세계 이미지에서 멀리 떨어진…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 정교한 World Models

최근 3D 재구성 분야의 진보로 일상적인 환경에서 현실적인 디지털 트윈을 쉽게 만들 수 있게 되었습니다. 그러나 현재 디지털 트윈은 여전히 크게…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Open Foundation Models에서 Vision의 적대적 견고성

딥러닝이 증가함에 따라 AI 시스템이 객체를 식별할 수 있는 모델을 이해하기가 점점 어려워집니다. 따라서, 적대자는…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 다중 에이전트 상호작용 시퀀스 모델링을 위한 Diffusion Forcing

다중 인물 상호작용을 이해하고 생성하는 것은 robotics와 social computing에 광범위한 영향을 미치는 근본적인 도전 과제입니다. 인간은 자연스럽게…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] RadarGen: 카메라에서 자동차 레이더 포인트 클라우드 생성

우리는 RadarGen을 소개합니다. RadarGen은 다중 뷰 카메라 이미지로부터 현실적인 자동차 레이더 포인트 클라우드를 합성하기 위한 diffusion model입니다. RadarGen은 효율적인 이미지‑...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 키포인트 카운팅 분류기: Vision Transformers를 훈련 없이 Self‑Explainable Models로 전환

현재 self-explainable models (SEMs)를 설계하기 위한 접근 방식은 복잡한 training procedures와 특정 architectures를 필요로 하여 실용적이지 않다....

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Visually Prompted 벤치마크는 놀라울 정도로 취약하다

VLM을 평가할 때 주요 과제는 모델이 텍스트 사전 지식과는 독립적으로 시각적 콘텐츠를 분석할 수 있는 능력을 테스트하는 것입니다. BLINK와 같은 최신 벤치마크는…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] InSPECT: 확산 모델의 불변 스펙트럼 특징 보존

현대 확산 모델(DMs)은 최첨단 이미지 생성 성능을 달성했습니다. 그러나 데이터를 완전히 백색 잡음까지 확산시키는 근본적인 설계 선택은…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 해석 가능한 식물 잎 질병 탐지: Attention-Enhanced CNN 활용

식물 질병은 전 세계 식량 안보에 중대한 위협이 되며, 정확하고 해석 가능한 질병 탐지 방법이 필요합니다. 이 연구는 i...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] InfSplign: 추론 단계에서 텍스트-이미지 확산 모델의 공간 정렬

Text-to-image (T2I) diffusion models는 고품질 이미지를 생성하지만 텍스트 프롬프트에 지정된 공간 관계를 포착하지 못하는 경우가 많습니다. 이 제한은…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] PathBench-MIL: Histopathology에서 Multiple Instance Learning을 위한 포괄적인 AutoML 및 Benchmarking 프레임워크

우리는 병리학에서 다중 인스턴스 학습(MIL)을 위한 오픈 소스 AutoML 및 벤치마킹 프레임워크인 PathBench-MIL을 소개합니다. 이 시스템은 end-to‑end…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Generative Refocusing: 단일 이미지에서 유연한 Defocus 제어

Depth-of-field 제어는 사진 촬영에서 필수적이지만, 완벽한 초점을 맞추려면 여러 번 시도하거나 특수 장비가 필요합니다. Single-image refocusing은 아직…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 세상은 당신의 캔버스: 참조 이미지, 궤적 및 텍스트를 활용한 프롬프트 가능한 이벤트 그리기

우리는 WorldCanvas를 소개합니다. 이는 promptable world events를 위한 프레임워크로, 텍스트, trajectories, reference image를 결합하여 풍부하고 사용자 주도적인 시뮬레이션을 가능하게 합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 다음 임베딩 예측이 강력한 비전 학습자를 만든다

자연어에서 생성적 사전학습(generative pretraining)의 성공에 영감을 받아, 우리는 동일한 원칙이 강력한 자체 지도(self-supervised) 시각 학습자(visual learners)를 만들 수 있는지 묻는다. Inst...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 중요한 차이점: Auditing Models for Capability Gap Discovery and Rectification

멀티모달 LLM(MLLM)용 기존 평가 방법은 해석 가능성이 부족하고, 종종 중요한 능력 격차를 완전히 드러내기에 충분하지 않다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] DVGT: 드라이빙 비주얼 지오메트리 트랜스포머

시각 입력으로부터 3D 장면 기하학을 인식하고 재구성하는 것은 자율 주행에 매우 중요합니다. 그러나 아직도 운전 목표에 특화된 밀집 기하학이 부족합니다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] EasyV2V: 고품질 명령 기반 비디오 편집 프레임워크

이미지 편집은 급속히 발전했지만, 비디오 편집은 덜 탐구된 상태이며 일관성, 제어 및 일반화에 대한 도전에 직면하고 있습니다. 우리는 디자인을…

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] AdaTooler-V: 이미지와 비디오를 위한 적응형 툴 사용

최근 연구에 따르면 멀티모달 대형 언어 모델(MLLMs)은 비전 도구와의 상호작용을 포함한 멀티모달 인터리브 체인오브쓸(Chain-of-Thought, CoT)에서 이점을 얻는 것으로 나타났습니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] StereoPilot: 생성적 사전 지식을 통한 통합적이고 효율적인 스테레오 변환 학습

VR 헤드셋과 3D 시네마를 포함한 스테레오스코픽 디스플레이의 급속한 성장으로 고품질 스테레오 비디오 콘텐츠에 대한 수요가 증가하고 있습니다. 그러나, pr...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Depth Any Panoramas: 파노라믹 깊이 추정을 위한 파운데이션 모델

본 연구에서는 다양한 장면 거리 전반에 일반화되는 파노라마 메트릭 깊이 파운데이션 모델을 제시합니다. 우리는 데이터‑인‑루프 패러다임을 …에서 탐구합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] SFTok: 이산 토크나이저의 성능 격차 해소

최근 멀티모달 모델의 발전은 고해상도 이미지 생성에서 이미지 토큰화의 핵심적인 역할을 강조합니다. 이미지를 압축하여 컴팩트한 la...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 추론에서 움직임으로 흐르며: Egocentric Human Interaction Videos로부터 3D Hand Trajectory Prediction 학습

3D hand trajectory prediction에 관한 기존 연구들은 움직임을 의미론적 감독과 분리하는 데이터셋과 추론을 약하게 연결하는 모델에 의해 제한됩니다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] 멀티모달 RewardBench 2: 교차 텍스트와 이미지에 대한 Omni Reward Models 평가

보상 모델(RMs)은 대형 언어 모델(LLMs) 훈련에 필수적이지만, 이미지와 텍스트가 교차하는 시퀀스를 처리하는 옴니 모델에 대해서는 아직 충분히 탐구되지 않았다.

#research #paper #ai #nlp #computer-vision

Newer posts

Older posts