computer vision — Page 12

정렬:

2개월 전 · ai · - · -

[Paper] XR 환경에서 오픈셋 객체 탐지를 위한 사용자 프롬프트 전략 및 프롬프트 강화 방법

Open-set object detection (OSOD)은 객체를 위치시키면서 추론 시에 알려지지 않은 클래스들을 식별하고 거부합니다. 최근 OSOD 모델들은 벤치마크에서 좋은 성능을 보이고 있습니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 딥 스카이 노이즈 제거: 천문 이미징을 위한 물리 기반 CCD 노이즈 형성

Astronomical imaging은 실용적인 관측 제약 하에서 여전히 noise‑limited 상태이며, 표준 calibration pipelines는 주로 structured artifacts와 …

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] PaperBanana: AI 과학자를 위한 학술 일러스트 자동화

언어 모델을 기반으로 한 자율 AI 과학자들의 급속한 발전에도 불구하고, 출판용 일러스트레이션을 생성하는 일은 여전히 노동 집약적인 병목 현상이다…

#research #paper #ai #nlp #computer-vision
2개월 전 · ai · - · -

[Paper] Vision-Language 모델에서 Brownian Distance Covariance를 이용한 Training-Free Test-Time Adaptation

Vision-language 모델은 도메인 쉬프트 하에서 성능 저하가 발생하여 실제 적용 가능성을 제한합니다. 기존 테스트-타임 적응 방법은 computati...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] Structured Over Scale: 교육용 비디오에서 공간 추론 학습

Vision-language models (VLMs)은 표준 비디오 이해 벤치마크에서 인상적인 성능을 보여주지만, 단순 추론 작업에서는 체계적으로 실패한다…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] ShotFinder: 상상력 기반 오픈 도메인 비디오 샷 검색 via 웹 검색

최근 몇 년간, 대형 언어 모델(LLMs)은 정보 검색에서 급속한 진전을 이루었지만, 기존 연구는 주로 텍스트나 정적 멀티...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] Video-o3: 네이티브 인터리브드 단서 탐색을 위한 긴 비디오 다중 홉 추론

기존의 멀티모달 대형 언어 모델들은 긴 비디오 이해를 위해 주로 uniform sampling과 single-turn inference에 의존하고 있어, 그 능력을 제한한다…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 노이즈 판정자 하에서 의료 영상 분할을 위한 Region-Normalized DPO

밀집된 픽셀 단위 주석은 의료 이미지 세그멘테이션에서 여전히 골드 스탠다드이지만, 비용이 많이 들고 확장성을 제한합니다. 반면에, 많은 d...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Med-Scout: Geometry-Aware RL 사후 학습을 통한 의료 인식에서 MLLM의 기하학적 맹점 치료

최근 멀티모달 대형 언어 모델(MLLMs)의 의료 진단에 대한 언어적 역량에도 불구하고, 우리는 최첨단 MLLM조차도 중요한 …

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] SQUAD: 확장 가능한 쿼럼 적응형 의사결정, early exit neural networks 앙상블을 통해

Early-exit neural networks는 충분한 confidence가 달성될 때 intermediate predictions를 허용함으로써 inference latency를 줄이는 데 인기를 얻고 있습니다. Howev...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 원스텝 Latent-free 이미지 생성 with Pixel Mean Flows

현대 diffusion/flow 기반 이미지 생성 모델은 일반적으로 두 가지 핵심 특성을 보인다: (i) 다단계 샘플링을 사용하고, (ii) 잠재…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] UEval: 통합 멀티모달 생성 벤치마크

우리는 UEval이라는 벤치마크를 도입합니다. 이는 이미지와 텍스트를 모두 생성할 수 있는 통합 모델을 평가하기 위한 것입니다. UEval은 1,000개의 전문가가 선정한 질문으로 구성됩니다.

#research #paper #ai #nlp #computer-vision
2개월 전 · ai · - · -

[Paper] DynamicVLA: 동적 객체 조작을 위한 Vision-Language-Action 모델

동적 객체를 조작하는 것은 Vision-Language-Action (VLA) 모델에게 여전히 해결되지 않은 과제이며, 정적 조작에서 강력한 일반화 능력을 보임에도 불구하고, str...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] VLMs는 인지하는가, 기억하는가? 고전 시각 착시를 통한 시각 인지와 기억 탐구

대형 비전-언어 모델(VLMs)은 원본 이미지에서 고전적인 시각 착시 현상에 대해 ‘정확하게’ 답변하는 경우가 많지만, 착시 현상의 사실이...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] JUST-DUB-IT: Joint Audio-Visual Diffusion을 통한 비디오 더빙

Audio-Visual Foundation Models는 사운드와 시각 콘텐츠를 공동으로 생성하도록 사전 학습된 모델로, 최근 다중‑...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Routing the Lottery: 이질적 데이터에 대한 적응형 서브네트워크

프루닝에서, Lottery Ticket Hypothesis는 큰 네트워크가 희소 서브네트워크, 즉 winning tickets를 포함하고 있으며, 이들은 별도로 훈련되어 t...와 일치하도록 할 수 있다고 제시한다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[논문] PI-Light: Physics-Inspired Diffusion for Full-Image Relighting

Full-image relighting은 대규모 구조화된 paired data를 수집하기 어려운 점과 물리적 … 때문에 여전히 도전적인 문제로 남아 있다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Computed Tomography를 통한 췌장암의 조기 및 진단 전 탐지

Pancreatic ductal adenocarcinoma (PDAC), 가장 치명적인 고형 악성 종양 중 하나로, 종종 늦은 단계에서 수술이 불가능한 상태로 발견됩니다. 선행 연구들의 회고적 검토는 …

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] EditYourself: 오디오 기반 Talking Head 비디오의 생성 및 조작 with Diffusion Transformers

현재 generative video models는 text and image prompts로부터 새로운 콘텐츠를 생성하는 데 뛰어나지만, 기존 pre-recorded videos를 편집하는 데 중요한 격차를 남겨두고 있습니다, ...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 창의적인 이미지 생성 with Diffusion Model

Creative image generation은 새로운 고품질 이미지를 생산하고 경계를 확장하려는 필요에 의해 주도되는 매력적인 연구 분야로 부상했습니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

단순 사진을 넘어: SAM과 GPT-4o로 픽셀-퍼펙트 칼로리 추정기 구축

우리 모두 그런 상황을 겪어봤을 겁니다: 맛있는 파스타 한 접시를 앞에 두고, 모든 그램을 수동으로 피트니스 앱에 기록하려고 할 때. 이는 지루하고, ‘낙관적인’ 인간 오류에 취약합니다.

#segment-anything #gpt-4o #computer-vision #multimodal #fastapi
2개월 전 · ai · - · -

[Paper] 실용적인 VLA 파운데이션 모델

로봇 조작에서 큰 잠재력을 제공하는 유능한 Vision-Language-Action (VLA) 기반 모델은 작업 전반에 걸쳐 충실하게 일반화될 것으로 기대된다...

#vision-language-action #robotics #foundation-model #computer-vision #machine-learning
2개월 전 · ai · - · -

[Paper] 견고한 지각 지오데식에 대한 반사실 설명

Latent-space optimization 방법은 counterfactual explanations을 위해, model predictions을 변경하는 최소한의 semantic perturbations으로 구성되며, 모호성을 물려받는다.

#counterfactual explanations #perceptual geodesics #computer vision #machine learning #robustness
2개월 전 · ai · - · -

[Paper] Splat-Portrait: Gaussian Splatting을 이용한 Talking Heads 일반화

Talking Head Generation은 음성 및 단일 초상 이미지로부터 자연스러운 말하는 비디오를 합성하는 것을 목표로 합니다. 이전 3D talking head generation 방법…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] CONQUER: 문맥 인식 표현과 쿼리 강화를 통한 텍스트 기반 인물 검색

Text-Based Person Search (TBPS)는 자연어 설명을 사용하여 대규모 갤러리에서 보행자 이미지를 검색하는 것을 목표로 합니다. 이 작업은 공공 안전에 필수적입니다.

#text-based person search #cross-modal retrieval #computer vision #query enhancement #optimal transport
3개월 전 · ai · - · -

Python을 사용하여 Kaggle에서 이미지 분류 시작하기

Kaggle에서 Python을 사용한 이미지 분류 시작하기를 위한 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravit...

#image classification #Kaggle #Python #machine learning #deep learning #computer vision
3개월 전 · ai · - · -

XAI에서 Axiomatic Non‑Sensitivity를 측정하는 올바른 방법

공리적 비민감성을 측정하는 올바른 방법 왜 당신의 XAI 메트릭이 거짓말을 할 수 있는지 — 그리고 우리가 그것을 고친 방법 만약 실제로 어떻게 …를 측정하려고 시도해 본 적이 있다면

#XAI #explainability #non-sensitivity #attribution maps #AIXPlainer #metric evaluation #deep learning #computer vision
3개월 전 · ai · - · -

[Paper] UniX: Autoregression과 Diffusion을 통합한 흉부 X-Ray 이해 및 생성

최근의 진전에도 불구하고, 의료 foundation models는 시각적 이해와 generation이라는 본질적으로 상충되는 목표를 가지고 있기 때문에 이를 통합하는 데 여전히 어려움을 겪고 있다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] ShapeR: 일상적인 캡처에서 강인한 조건부 3D 형태 생성

최근 3D shape generation 분야의 발전은 인상적인 결과를 달성했지만, 대부분의 기존 방법은 깨끗하고 가려지지 않으며 잘 분할된 입력에 의존합니다. 이러한 co...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] ReScene4D: 진화하는 실내 3D 씬의 시간적 일관성을 갖춘 시맨틱 인스턴스 분할

실내 환경은 물체가 움직이거나 나타나거나 사라짐에 따라 변화합니다. 이러한 동역학을 포착하려면 시간적으로 일관된 instance identities를 유지해야 합니다...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] CTest-Metric: CT 보고서 생성 메트릭의 임상 타당성을 평가하는 통합 프레임워크

생성 AI 시대에, 중요한 의료 작업조차 점점 자동화되는 가운데, radiology report generation (RRG)은 여전히 최적이 아닌 metric에 의존하고 있다.

#research #paper #ai #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] 엔드‑투‑엔드 자율주행을 위한 생성 시나리오 롤아웃

Vision-Language-Action (VLA) 모델은 엔드투엔드 자율 주행 시스템을 위한 매우 효과적인 플래닝 모델로 부상하고 있습니다. 그러나 현재 연구들은 대부분 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] MHA2MLA-VLM: DeepSeek의 경제적인 멀티-헤드 잠재 어텐션을 비전-언어 모델에 적용

비전-언어 모델(VLMs)이 점점 더 복잡하고 멀티모달 작업을 수행함에 따라, 키-밸류(KV) 캐시의 급격한 성장으로 인해 상당한 메모리와 컴퓨…

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] PRISM-CAFO: 사전 조건화된 원격 탐사 인프라 분할 및 매핑 for CAFOs

대규모 가축 사육 시설은 인간 건강과 환경에 중대한 위험을 초래하며, 감염성 질병과 같은 위협에도 취약합니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 두 점수가 하나보다 나은 경우는 언제인가? Diffusion Models 앙상블 조사

Diffusion models는 이제 고품질의 다양하고 풍부한 샘플을 생성하며, 보다 강력한 모델에 대한 관심이 증가하고 있습니다. 비록 ensembling은 잘 알려진 방법으로…

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Map2Thought: 메트릭 인지 지도를 통한 명시적 3D 공간 추론

우리는 Map2Thought를 제안한다, 이는 3D VLMs에 대해 명시적이고 해석 가능한 공간 추론을 가능하게 하는 프레임워크이다. 이 프레임워크는 두 가지 핵심 구성 요소에 기반한다: Metr...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] PubMed-OCR: PMC 오픈 액세스 OCR 주석

PubMed-OCR는 PubMed Central Open Access PDF에서 파생된 과학 논문들의 OCR 중심 코퍼스입니다. 각 페이지 이미지에는 Google Cloud Vision을 사용하여 주석이 달려 있습니다.

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

RGB에서 Lab으로: AI 이미지 합성에서 색상 아티팩트 해결

다중 계층 접근 방식으로 세분화, 색 보정 및 도메인별 향상 게시물: From RGB to Lab: AI 이미지 합성에서 색 왜곡 해결

#image compositing #color correction #RGB #Lab color space #segmentation #computer vision #deep learning #AI image processing
3개월 전 · ai · - · -

[Paper] WildRayZer: Self-supervised 대규모 뷰 합성, 동적 환경에서

우리는 카메라와 객체가 모두 움직이는 동적 환경에서 새로운 시점 합성(NVS)을 위한 자체 감독 프레임워크인 WildRayZer를 제시한다. 동적 콘텐츠…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Alterbute: 이미지 내 객체의 내재 속성 편집

우리는 이미지에서 객체의 내재적 속성을 편집하기 위한 diffusion 기반 방법인 Alterbute를 소개합니다. 색상, 질감, 재료 등을 변경할 수 있으며, ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 일대일에서 다대다로: Deep Vision-Language Fusion을 위한 Dynamic Cross-Layer Injection

Vision-Language Models (VLMs)는 시각 인코더의 출력만을 연결하는 조잡하고 비대칭적인 연결을 사용함으로써 심각한 visual feature bottleneck을 초래한다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 덜 보고, 더 나은 운전: 파운데이션 모델을 통한 일반화 가능한 엔드-투-엔드 자율 주행, 확률적 패치 선택

최근 엔드투엔드 자율주행 분야의 진보는, 파운데이션 모델에서 추출한 패치 정렬 특징을 사용해 훈련된 정책이 Out-...에 대해 더 잘 일반화한다는 것을 보여준다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] CURVE: 문화 및 다언어 장기 비디오 추론을 위한 벤치마크

최근 video models의 발전은 특히 long video understanding에서 엄청난 진전을 보여주었습니다. 그러나 현재 benchmarks는 주로 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] CoMoVi: 3D 인간 모션과 실감 나는 비디오의 공동 생성

본 논문에서는 3D 인간 동작과 2D 인간 비디오의 생성이 본질적으로 결합되어 있음을 발견한다. 3D 동작은 설득력 있는 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Molmo2: 비전‑언어 모델을 위한 오픈 가중치와 데이터, 비디오 이해 및 그라운딩

오늘날 가장 강력한 비디오-언어 모델(VLM)은 여전히 독점적이다. 가장 강력한 오픈-웨이트 모델은 독점 VLM에서 생성된 합성 데이터에 의존하거나, effecti...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 효율적인 적응형 VVC 스트리밍을 위한 다목표 파레토 프론트 최적화

Adaptive video streaming은 지난 몇 년간 비디오 스트리밍을 개선하는 데 기여했습니다. 비트레이트, 비디오 품질 등과 같은 코딩 성능 목표 사이의 균형을...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] RSATalker: 다중 턴 대화를 위한 현실적인 사회 인식 Talking Head 생성

Talking head generation은 가상 현실(VR)에서, 특히 다중 턴 대화를 포함하는 사회적 시나리오에서 점점 더 중요해지고 있습니다. 기존 접근 방식은…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Action100M: 대규모 비디오 행동 데이터셋

시각 관찰로부터 물리적 행동을 추론하는 것은 물리적 세계에서 machine intelligence를 발전시키기 위한 기본적인 능력이다. 이를 달성하려면...

#research #paper #ai #computer-vision

Newer posts

Older posts