computer vision — Page 13

정렬:

3개월 전 · ai · - · -

[Paper] MHub.ai: 의료 영상에서 AI 모델을 위한 간단하고 표준화된 재현 가능한 플랫폼

Artificial intelligence (AI)는 이미지 분석을 자동화하고 임상 연구를 가속화함으로써 의료 영상 분야를 변혁시킬 잠재력이 있습니다. 그러나 연구는 …

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

새로운 Apple 모델이 시각 이해와 이미지 생성을 결합해 인상적인 결과를 보여줍니다

Apple 연구원들은 시각 이해와 텍스트‑투‑이미지 생성을 결합한 다중모달 모델인 Manzano에 대한 연구를 발표했으며, 동시에 크게…

#Apple #multimodal AI #vision-language model #text-to-image generation #Manzano #computer vision #generative AI #AI research
3개월 전 · ai · - · -

[Paper] Fast-ThinkAct: 효율적인 Vision-Language-Action 추론을 위한 Verbalizable Latent Planning

Vision-Language-Action (VLA) 작업은 복잡한 시각 장면에 대한 추론과 동적인 환경에서 적응형 행동을 실행하는 것을 요구한다. 최근 연구들은 …

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] SAM3-DMS: SAM3의 다중 대상 비디오 분할을 위한 디커플드 메모리 선택

Segment Anything 3 (SAM3)은 비디오에서 지정된 대상들을 강력하게 감지하고, 분할하며, 추적하는 견고한 기반을 구축했습니다. 그러나 원본에서는...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] COMPOSE: 다중 뷰 3D 인체 자세 추정을 위한 하이퍼그래프 커버 최적화

sparse multi-views에서의 3D pose estimation은 action recognition, sports analysis, human-robot interaction 등을 포함한 수많은 응용 분야에서 중요한 과제입니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 효율적인 카메라 제어 비디오 생성: 정적 장면을 위한 Sparse Diffusion 및 3D Rendering

현대의 비디오 생성 모델은 diffusion models에 기반하여 매우 현실적인 클립을 만들 수 있지만, 계산 효율성이 낮아 종종 몇 분이 걸린다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] LLMs can Compress LLMs: 에이전트에 의한 적응형 프루닝

대규모 언어 모델(LLM)이 계속 확장됨에 따라, 사후 훈련 프루닝은 계산 비용을 줄이면서 성능을 유지하는 유망한 접근법으로 떠올랐습니다.

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] STEP3-VL-10B 기술 보고서

우리는 STEP3-VL-10B를 소개합니다. 이는 경량의 오픈소스 파운데이션 모델로, 컴팩트 효율성과 최첨단 멀티모달 사이의 트레이드오프를 재정의하도록 설계되었습니다…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] SCE-SLAM: 장면 좌표 임베딩을 통한 스케일 일관성 단안 SLAM

모노큘러 비주얼 SLAM은 인터넷 비디오에서 3D 재구성을 가능하게 하고 자원 제한 플랫폼에서 자율 내비게이션을 지원하지만, 스케일 드리프트, i...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 장시간 비디오를 위한 자기 지도 동물 식별

장시간 비디오에서 개별 동물을 식별하는 것은 행동 생태학, 야생동물 모니터링 및 가축 관리에 필수적입니다. 전통적인 방법은...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] LiteEmbed: 희귀 클래스에 CLIP 적용

CLIP과 같은 대규모 비전‑언어 모델은 강력한 제로샷 인식을 달성하지만, 사전 학습 중에 거의 보이지 않는 클래스에 대해서는 어려움을 겪습니다, 포함…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Image2Garment: 단일 이미지에서 시뮬레이션용 의류 생성

단일 이미지에서 물리적으로 정확하고 simulation-ready 의상을 추정하는 것은 image-to-physics 데이터셋이 부족하고 ill-posed 문제이기 때문에 도전적이다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 텍스트‑투‑이미지 리더보드 뒤의 모델 식별

텍스트-투-이미지 (T2I) 모델은 점점 인기를 얻고 있으며, 온라인에서 AI 생성 이미지의 큰 비중을 차지하고 있습니다. 모델 품질을 비교하기 위해, 투표 기반 리더보드...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] PersonalAlign: 개인화 GUI 에이전트를 위한 계층적 암시적 의도 정렬 및 장기 사용자 중심 기록

GUI 에이전트는 명시적이고 완료 지시 하에 강력한 성능을 보여왔지만, 실제 배포에서는 사용자의 보다 복잡한 구현에 맞추는 것이 필요합니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

CNN 전쟁: 과일 질병 감지를 위한 ResNet vs. MobileNet vs. EfficientNet

서론 나는 딥러닝이 실제 문제를 해결하는 방식에 항상 매료되어 왔으며, 과일 질병 감지는 완벽한 도전 과제로 보였다—not...

#fruit disease detection #ResNet #MobileNet #EfficientNet #deep learning #computer vision #image classification #agricultural AI
3개월 전 · ai · - · -

[Paper] RAVEN: 새로운 뷰 합성을 통한 보이지 않는 워터마크 제거

보이지 않는 워터마킹은 AI 생성 이미지 콘텐츠를 인증하는 핵심 메커니즘이 되었으며, 주요 플랫폼들은 대규모로 워터마킹 스킴을 배포하고 있습니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 3AM: 비디오에서 기하학적 일관성을 갖춘 Segment Anything

SAM2와 같은 비디오 객체 분할 방법은 메모리 기반 아키텍처를 통해 강력한 성능을 달성하지만, 큰 시점 변화에서는 신뢰성 때문에 어려움을 겪는다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 비디오 생성용 모션 어트리뷰션

비디오 생성 모델이 급속히 발전하고 있음에도 불구하고, 데이터가 움직임에 미치는 역할은 아직 충분히 이해되지 않고 있다. 우리는 Motive (MOTIon attribution for Vi… )를 제시한다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 3D Visual Grounding을 위한 추론의 중요성

강력한 추론 능력을 갖춘 대형 언어 모델(Large Language Models, LLMs)의 최근 발전은 수학, 코딩, 그리고 과학 등 다양한 분야에서 연구를 촉진하고 있습니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] S3-CLIP: Person-ReID를 위한 비디오 초해상도

Tracklet 품질은 대부분의 사람 재식별(ReID) 방법에서 사후 고려 사항으로 취급되는 경우가 많으며, 연구의 대부분은 아키텍처 변형을 제시하는 데 초점을 맞추고 있다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 제로샷 딥 로컬-피처 매칭을 활용한 훌라 페인티드 개구리의 거의 완벽한 photo-ID

정확한 개체 식별은 희귀 양서류를 모니터링하는 데 필수적이지만, 침습적인 마킹은 종종 위급히 멸종 위기에 처한 종에게는 부적합합니다. 우리는…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] DentalX: 문맥 인식 치과 질환 탐지 with Radiographs

방사선 사진(radiographs)에서 치과 질환을 진단하는 것은 진단 증거가 미묘하기 때문에 시간도 많이 걸리고 어려운 작업입니다. 기존 방법들은 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 다양한 단서 전문가 통합을 통한 AI 생성 이미지 탐지

이미지 합성 모델의 급속한 등장으로 AI 생성 이미지 탐지기의 일반화에 도전 과제가 제기됩니다. 그러나 기존 방법들은 종종 mo...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Light‑Sheet Microscopy 이미지를 CycleGAN을 사용해 가상 H&E로 변환

조직병리학 분석은 헤마톡실린 및 에오신(H&E) 염색에 의존하지만, 형광 현미경은 보완적인 정보를 제공합니다. 형광을 변환하는…

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] M3CoTBench: 의료 영상 이해에서 MLLMs의 Chain-of-Thought 벤치마크

Chain-of-Thought (CoT) 추론은 단계별 중간 추론을 장려함으로써 대규모 언어 모델을 향상시키는 데 효과적인 것으로 입증되었으며, 최근의 발전…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Large Language Models를 통한 Event-based Context와 Confidence를 이용한 Zero-shot ADL Recognition 개선

스마트 홈에서 IoT 센싱 장치가 수집한 데이터를 처리하여 일상 생활 활동(Activities of Daily Living, ADLs)을 비침해적인 센서 기반으로 인식하는 것은 응용을 지원한다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] SecureCAI: 주입 저항형 LLM 어시스턴트 for 사이버 보안 운영

Large Language Models는 Security Operations Centers에 변혁적인 도구로 등장했으며, automated log analysis, phishing triage, 그리고 malware …을 가능하게 합니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 튜닝 프리 Visual Effect Transfer 비디오 간

우리는 RefVFX라는 새로운 framework을 제시한다. 이 framework은 복잡한 temporal effects를 reference video에서 target video 또는 image로 feed‑forward manner로 전달한다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] MHLA: Token-Level Multi-Head를 통한 Linear Attention의 표현력 복원

Transformer 아키텍처가 많은 분야를 장악하고 있지만, 그 이차적인 self-attention 복잡도는 대규모 응용에서의 사용을 방해한다. Linear attention ...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 더 많은 이미지, 더 많은 문제? VLM 실패 모드에 대한 통제된 분석

대형 비전 언어 모델(LVLMs)은 놀라운 능력을 입증했지만, 다중 이미지에 대한 이해와 추론 능력은 여전히…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 원격 탐사 변화 감지를 위한 Exchange Is All You Need

Remote sensing change detection은 근본적으로 bi-temporal features의 효과적인 융합과 구별에 의존합니다. 기존 패러다임은 일반적으로 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 정확한 크레이터 탐지를 위한 Vision-Language 모델

유럽 우주국(ESA)은 Argonaut 랜더를 이용한 계획된 달 임무에 대한 야망에 힘입어 신뢰할 수 있는 crater detection에 깊은 관심을 가지고 있습니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] OS-Symphony: 견고하고 범용적인 컴퓨터 활용 에이전트를 위한 전체론적 프레임워크

Vision-Language Models (VLMs)가 Computer-Using Agents (CUAs)를 크게 발전시켰지만, 현재 프레임워크는 장기 작업 흐름에서 견고성에 어려움을 겪고 있습니다...

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] 외부 가이드 넘어: 향상된 학습을 위한 Diffusion Transformers 내부 의미 풍부성 발휘

최근 REPA와 같은 연구들은 외부 의미적 특징(e.g., DINO)으로 diffusion 모델을 안내하는 것이 diffusion 모델의 학습을 크게 가속화할 수 있음을 보여주었다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Video Evidence를 활용한 Reasoning: Explicit Evidence Grounding을 통한 Efficient Video Understanding

Large Vision-Language Models (LVLMs)은 비디오 추론에서 근본적인 딜레마에 직면해 있습니다: 이들은 장황한 추론의 과도한 계산 비용과 … 사이에 끼어 있습니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Wasserstein metric을 이용한 2D 곡선 분류에 대한 연구

본 연구에서는 분류를 지정된 부분(조각)으로 집중시킬 수 있는 Wasserstein distance의 여러 변형을 분석한다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 비주얼 언어 모델의 인코딩 능력 평가: 비일상적 행동을 이용하여

우리는 UAIT(Uncommon-sense Action Image-Text) 데이터셋을 제안한다. 이는 시각 언어 모델의 의미 이해 능력을 테스트하기 위해 설계된 새로운 평가 벤치마크이다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] SC-MII: 인프라 LiDAR 기반 3D 객체 탐지를 위한 엣지 디바이스에서의 스플릿 컴퓨팅 및 다중 중간 출력 통합

LiDAR 기반 point cloud 데이터와 deep neural networks를 활용한 3D object detection은 autonomous driving 기술에 필수적입니다. 그러나 state-of-the-a...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

컴퓨터 비전을 활용한 프로덕션 레디 교통 위반 감지 시스템 구축

교통 모니터링 및 위반 감지는 겉보기에는 단순해 보이지만 실제 환경에서는 매우 빠르게 복잡해지는 고전적인 computer vision 문제입니다.

#computer vision #traffic monitoring #violation detection #object detection #video analytics #deep learning #object tracking #production deployment
3개월 전 · ai · - · -

미래 에이전트의 두뇌: 왜 VL-JEPA가 실제 세계 AI에 중요한가

“Generative” 함정 최근 AI를 따라오셨다면 절차를 아실 겁니다: Input → Generate. - ChatGPT, Gemini, 혹은 Claude에 프롬프트를 주면 → 그것이 생성합니다…

#VL-JEPA #vision-language models #generative AI #multimodal learning #efficiency in AI #LLM #computer vision
3개월 전 · ai · - · -

[Paper] Deepfake 탐지기는 DUMB: 전이 가능성 제약 하에서 적대적 학습 견고성을 평가하기 위한 벤치마크

실제 환경에 배치된 Deepfake 탐지 시스템은 인식할 수 없는 교란을 만들어 모델 성능을 저하시키는 적대자들의 위협을 받는다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 적응형 조건부 대비 무관 변형 이미지 정합 및 불확실성 추정

Deformable multi-contrast image registration은 서로 다른 영상 대비 간의 복잡하고 비선형적인 강도 관계 때문에 도전적이면서도 중요한 과제입니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] VideoAR: 자동회귀 비디오 생성 via 다음 프레임 및 스케일 예측

최근 비디오 생성 분야의 최신 연구는 확산(diffusion) 및 흐름 매칭(flow‑matching) 모델이 주도하고 있으며, 이 모델들은 고품질 결과를 생성하지만 여전히 계산적으로 비용이 많이 듭니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] WaveRNet: Wavelet 기반 Frequency Learning을 이용한 Multi-Source Domain-Generalized Retinal Vessel Segmentation

Domain-generalized retinal vessel segmentation은 자동 안과 진단에 중요하지만, non…에 의해 유발되는 도메인 쉬프트로부터 상당한 도전에 직면한다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 충실한 Vision-Language Generation을 위한 Context-Aware Decoding

Hallucinations, visual input와 일치하지 않는 응답을 생성하는 현상은 대형 vision-language 모델(LVLMs)의 중요한 제한점으로 남아 있으며, 특히 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Relay Tokens를 사용한 Ultra-High Resolution Semantic Segmentation을 위한 Vision Transformers 적응

현재 ultra high resolution 이미지의 segmenting 접근 방식은 window를 slide하여 global context를 버리거나, downsample하여 세부 디테일을 잃는 방식입니다. 우리는 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Phase4DFD: 멀티 도메인 위상 인식 어텐션을 이용한 딥페이크 탐지

최근 deepfake 탐지 방법들은 조작 아티팩트를 드러내기 위해 frequency domain 표현을 점점 더 탐구하고 있으며, 이는 텍스트에서 감지하기 어려운...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 양방향 채널 선택적 의미 상호작용을 이용한 반지도 학습 의료 영상 분할

Semi-supervised medical image segmentation은 라벨이 제한된 데이터 상황을 해결하기 위한 효과적인 방법입니다. 기존 방법들은 주로 프레임워크에 의존합니다.

#research #paper #ai #computer-vision

Newer posts

Older posts