computer-vision — Page 18

정렬:

2개월 전 · ai · - · -

[Paper] IDT: 물리적으로 기반한 Transformer를 이용한 Feed-Forward 멀티뷰 내재적 분해

Intrinsic image decomposition은 시각적 이해에 기본적이며, RGB 이미지가 물질 특성, 조명, 그리고 시점 의존 효과를 얽혀 있기 때문입니다. Rec...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] RoboMirror: 모방하기 전에 이해하라 for Video to Humanoid Locomotion

인간은 시각 관찰을 통해 보행을 학습하며, 먼저 시각적 내용을 해석한 뒤 행동을 모방합니다. 그러나 최첨단 인간형 로봇 보행 시스템은…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] OmniAgent: 오디오 가이드 액티브 퍼셉션 에이전트 for 옴니모달 오디오-비디오 이해

Omnimodal large language models는 audio와 visual modalities를 통합하는 데 큰 진전을 이루었지만, 종종 세밀한 cross-modal 이해가 부족합니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 엔드-투-엔드 3D 인식의 시공간 정렬 재고

Spatio-temporal alignment은 자율주행(AD)에서 end-to-end (E2E) 인식의 시간 모델링에 필수적이며, 귀중한 구조적 및 텍스처 정보를 제공합니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 3D Shape Generation에서의 기억화: 실증 연구

Generative models는 새로운 형태를 합성하기 위해 3D vision에서 점점 더 많이 사용되고 있지만, 그들의 생성이 훈련 s...에 의존하는지는 아직 명확하지 않다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 확장 가능한 Residual Feature Aggregation Framework와 Hybrid Metaheuristic Optimization을 이용한 강인한 초기 췌장 신생물 검출을 위한 Multimodal CT Imaging

췌장 종양(pancreatic neoplasm)의 조기 발견은 주요 임상적 딜레마이며, 이는 주로 종양이 최소한의 대비 경계(minimal contrast margin)로 나타날 가능성이 높기 때문입니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 카메라 RGB‑NIR에서 화재 감지

적외선 야간 시야 카메라를 이용한 화재 감지 정확도 향상은 여전히 어려운 과제이다. 이전 연구들은 강력한 성능을 보고하였다...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] RxnBench: 과학 문헌에서 화학 반응 이해를 평가하기 위한 대형 언어 모델용 멀티모달 벤치마크

멀티모달 대형 언어 모델(MLLMs)을 화학에 통합하는 것은 과학적 발견을 혁신할 것을 약속하지만, 그들의 …

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] CubeBench: 부분 관측 하에서 인터랙티브·장기 공간 추론 진단

Large Language Model (LLM) 에이전트는 디지털 영역에서는 능숙하지만, 물리적 세계에 배치하는 데 있어 형성의 어려움 때문에 큰 격차에 직면하고 있다.

#research #paper #ai #machine-learning #nlp #computer-vision
2개월 전 · ai · - · -

[Paper] MedGemma vs GPT-4: 오픈소스와 프로프라이어터리 제로샷 의료 질병 이미지 분류

멀티모달 대형 언어 모델(LLMs)은 방대한 임상 지식을 바탕으로 스캔을 해석함으로써 의료 영상 분야에 새로운 패러다임을 제시합니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

아티팩트에서 적대적 샘플 탐지

개요: 많은 AI 시스템은 이미지에 거의 보이지 않을 정도의 작은 편집을 가하면 잘못된 답을 내놓도록 속일 수 있습니다. 연구자들은 간단한 …

#adversarial attacks #uncertainty estimation #model robustness #computer vision #AI safety
2개월 전 · ai · - · -

Apple, 2D 사진을 즉시 3D 뷰로 변환하는 오픈소스 모델 출시

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

#apple #open-source #3d-reconstruction #computer-vision #machine-learning
2개월 전 · ai · - · -

[Paper] 덜 보고, 정확히 보기: 양방향 지각 형성을 위한 멀티모달 추론

대형 비전-언어 모델(VLMs)은 종종 중간 시각적 단서의 혜택을 받으며, 이는 외부 도구를 통해 주입되거나 잠재 시각 토큰으로 생성됩니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] ProEdit: 프롬프트에서 올바르게 수행되는 Inversion-based Editing

Inversion-based visual editing은 사용자 지침에 따라 이미지 또는 비디오를 편집하는 효과적이고 training‑free인 방법을 제공합니다. 기존 방법들은 일반적으로 …

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 연관 학습을 위한 Track-Detection Matching for Multi-Object Tracking

Multi-object tracking은 비디오 프레임 전반에 걸쳐 탐지를 연관시켜 객체 정체성을 시간에 따라 유지하는 것을 목표로 합니다. 문헌에서는 두 가지 주요 패러다임이 존재합니다:

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Yume-1.5: 텍스트 제어 인터랙티브 월드 생성 모델

최근 접근 방식들은 diffusion models를 사용하여 인터랙티브하고 탐험 가능한 세계를 생성하는 가능성을 보여주었습니다. 그러나 대부분의 이러한 방법들은 cri...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] StreamAvatar: 실시간 인터랙티브 인간 아바타를 위한 Streaming Diffusion Models

실시간 스트리밍 인터랙티브 아바타는 디지털 휴먼 연구에서 중요한 동시에 도전적인 목표를 나타냅니다. 비록 diffusion 기반 인간 아바타 생성은 …

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] MAI-UI 기술 보고서: 실세계 중심 기반 GUI 에이전트

GUI agents의 개발은 차세대 인간-컴퓨터 상호작용을 혁신시킬 수 있습니다. 이러한 비전에 고무되어, 우리는 MAI-UI, a family of fo...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 프롬프트 기반 비디오 세그멘테이션 파운데이션 모델에 대한 백도어 공격

프롬프트 기반 비디오 세그멘테이션 파운데이션 모델(VSFMs)인 SAM2와 같은 모델은 자율 주행 및 디지털 병리와 같은 응용 분야에 점점 더 많이 배치되고 있다,…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Patch-Discontinuity Mining을 통한 일반화된 Deepfake 탐지

생성형 인공지능(generative artificial intelligence)의 급속한 발전으로 매우 현실적인 가짜 얼굴 이미지가 생성될 수 있게 되었으며, 이는 개인에게 심각한 위협을 초래합니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] SketchPlay: 직관적인 물리적으로 사실적인 VR 콘텐츠 제작을 위한 제스처 기반 스케치

VR에서 물리적으로 현실적인 콘텐츠를 만들려면 종종 복잡한 모델링 도구나 미리 정의된 3D 모델, 텍스처, 애니메이션이 필요하며, 이는 상당한 b...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] LongFly: 장기 UAV Vision-and-Language Navigation with Spatiotemporal Context Integration

무인 항공기(UAV)는 재해 후 수색 및 구조에 필수적인 도구이며, 높은 정보 밀도와 급격한 시야 변화와 같은 도전 과제에 직면하고 있다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

WiFi DensePose: 벽을 통과하는 WiFi 기반 밀집 인간 자세 추정 시스템

기사 URL: https://github.com/ruvnet/wifi-densepose 댓글 URL: https://news.ycombinator.com/item?id=46388904 점수: 10 댓글: 1

#WiFi #DensePose #human pose estimation #computer vision #through walls #deep learning #open-source #research
2개월 전 · ai · - · -

LAION-400M: CLIP 필터링된 4억 이미지‑텍스트 쌍의 오픈 데이터셋

LAION-400M은 새로운 아이디어를 촉발하기 위해 설계된 거대한 공개 자원입니다. 약 4억 개의 이미지가 짧은 캡션과 짝을 이루며, 정제되고 CLIP‑filtered됩니다.

#LAION-400M #image-text dataset #CLIP-filtered #multimodal AI #open data #machine learning #computer vision

Newer posts

Older posts