computer vision — Page 16

정렬:

3개월 전 · ai · - · -

[논문] Web World Models

언어 에이전트는 점점 더 행동하고, 기억하고, 학습할 수 있는 지속적인 세계를 필요로 합니다. 기존 접근 방식은 두 극단에 놓여 있습니다: 기존 웹 fra...

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] IDT: 물리적으로 기반한 Transformer를 이용한 Feed-Forward 멀티뷰 내재적 분해

Intrinsic image decomposition은 시각적 이해에 기본적이며, RGB 이미지가 물질 특성, 조명, 그리고 시점 의존 효과를 얽혀 있기 때문입니다. Rec...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] RoboMirror: 모방하기 전에 이해하라 for Video to Humanoid Locomotion

인간은 시각 관찰을 통해 보행을 학습하며, 먼저 시각적 내용을 해석한 뒤 행동을 모방합니다. 그러나 최첨단 인간형 로봇 보행 시스템은…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] OmniAgent: 오디오 가이드 액티브 퍼셉션 에이전트 for 옴니모달 오디오-비디오 이해

Omnimodal large language models는 audio와 visual modalities를 통합하는 데 큰 진전을 이루었지만, 종종 세밀한 cross-modal 이해가 부족합니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 엔드-투-엔드 3D 인식의 시공간 정렬 재고

Spatio-temporal alignment은 자율주행(AD)에서 end-to-end (E2E) 인식의 시간 모델링에 필수적이며, 귀중한 구조적 및 텍스처 정보를 제공합니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 3D Shape Generation에서의 기억화: 실증 연구

Generative models는 새로운 형태를 합성하기 위해 3D vision에서 점점 더 많이 사용되고 있지만, 그들의 생성이 훈련 s...에 의존하는지는 아직 명확하지 않다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 확장 가능한 Residual Feature Aggregation Framework와 Hybrid Metaheuristic Optimization을 이용한 강인한 초기 췌장 신생물 검출을 위한 Multimodal CT Imaging

췌장 종양(pancreatic neoplasm)의 조기 발견은 주요 임상적 딜레마이며, 이는 주로 종양이 최소한의 대비 경계(minimal contrast margin)로 나타날 가능성이 높기 때문입니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 카메라 RGB‑NIR에서 화재 감지

적외선 야간 시야 카메라를 이용한 화재 감지 정확도 향상은 여전히 어려운 과제이다. 이전 연구들은 강력한 성능을 보고하였다...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] RxnBench: 과학 문헌에서 화학 반응 이해를 평가하기 위한 대형 언어 모델용 멀티모달 벤치마크

멀티모달 대형 언어 모델(MLLMs)을 화학에 통합하는 것은 과학적 발견을 혁신할 것을 약속하지만, 그들의 …

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] CubeBench: 부분 관측 하에서 인터랙티브·장기 공간 추론 진단

Large Language Model (LLM) 에이전트는 디지털 영역에서는 능숙하지만, 물리적 세계에 배치하는 데 있어 형성의 어려움 때문에 큰 격차에 직면하고 있다.

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] MedGemma vs GPT-4: 오픈소스와 프로프라이어터리 제로샷 의료 질병 이미지 분류

멀티모달 대형 언어 모델(LLMs)은 방대한 임상 지식을 바탕으로 스캔을 해석함으로써 의료 영상 분야에 새로운 패러다임을 제시합니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

아티팩트에서 적대적 샘플 탐지

개요: 많은 AI 시스템은 이미지에 거의 보이지 않을 정도의 작은 편집을 가하면 잘못된 답을 내놓도록 속일 수 있습니다. 연구자들은 간단한 …

#adversarial attacks #uncertainty estimation #model robustness #computer vision #AI safety
3개월 전 · ai · - · -

Apple, 2D 사진을 즉시 3D 뷰로 변환하는 오픈소스 모델 출시

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

#apple #open-source #3d-reconstruction #computer-vision #machine-learning
3개월 전 · ai · - · -

[Paper] 덜 보고, 정확히 보기: 양방향 지각 형성을 위한 멀티모달 추론

대형 비전-언어 모델(VLMs)은 종종 중간 시각적 단서의 혜택을 받으며, 이는 외부 도구를 통해 주입되거나 잠재 시각 토큰으로 생성됩니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] ProEdit: 프롬프트에서 올바르게 수행되는 Inversion-based Editing

Inversion-based visual editing은 사용자 지침에 따라 이미지 또는 비디오를 편집하는 효과적이고 training‑free인 방법을 제공합니다. 기존 방법들은 일반적으로 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 연관 학습을 위한 Track-Detection Matching for Multi-Object Tracking

Multi-object tracking은 비디오 프레임 전반에 걸쳐 탐지를 연관시켜 객체 정체성을 시간에 따라 유지하는 것을 목표로 합니다. 문헌에서는 두 가지 주요 패러다임이 존재합니다:

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Yume-1.5: 텍스트 제어 인터랙티브 월드 생성 모델

최근 접근 방식들은 diffusion models를 사용하여 인터랙티브하고 탐험 가능한 세계를 생성하는 가능성을 보여주었습니다. 그러나 대부분의 이러한 방법들은 cri...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] StreamAvatar: 실시간 인터랙티브 인간 아바타를 위한 Streaming Diffusion Models

실시간 스트리밍 인터랙티브 아바타는 디지털 휴먼 연구에서 중요한 동시에 도전적인 목표를 나타냅니다. 비록 diffusion 기반 인간 아바타 생성은 …

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] MAI-UI 기술 보고서: 실세계 중심 기반 GUI 에이전트

GUI agents의 개발은 차세대 인간-컴퓨터 상호작용을 혁신시킬 수 있습니다. 이러한 비전에 고무되어, 우리는 MAI-UI, a family of fo...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 프롬프트 기반 비디오 세그멘테이션 파운데이션 모델에 대한 백도어 공격

프롬프트 기반 비디오 세그멘테이션 파운데이션 모델(VSFMs)인 SAM2와 같은 모델은 자율 주행 및 디지털 병리와 같은 응용 분야에 점점 더 많이 배치되고 있다,…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Patch-Discontinuity Mining을 통한 일반화된 Deepfake 탐지

생성형 인공지능(generative artificial intelligence)의 급속한 발전으로 매우 현실적인 가짜 얼굴 이미지가 생성될 수 있게 되었으며, 이는 개인에게 심각한 위협을 초래합니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] SketchPlay: 직관적인 물리적으로 사실적인 VR 콘텐츠 제작을 위한 제스처 기반 스케치

VR에서 물리적으로 현실적인 콘텐츠를 만들려면 종종 복잡한 모델링 도구나 미리 정의된 3D 모델, 텍스처, 애니메이션이 필요하며, 이는 상당한 b...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] LongFly: 장기 UAV Vision-and-Language Navigation with Spatiotemporal Context Integration

무인 항공기(UAV)는 재해 후 수색 및 구조에 필수적인 도구이며, 높은 정보 밀도와 급격한 시야 변화와 같은 도전 과제에 직면하고 있다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

WiFi DensePose: 벽을 통과하는 WiFi 기반 밀집 인간 자세 추정 시스템

기사 URL: https://github.com/ruvnet/wifi-densepose 댓글 URL: https://news.ycombinator.com/item?id=46388904 점수: 10 댓글: 1

#WiFi #DensePose #human pose estimation #computer vision #through walls #deep learning #open-source #research
4개월 전 · ai · - · -

LAION-400M: CLIP 필터링된 4억 이미지‑텍스트 쌍의 오픈 데이터셋

LAION-400M은 새로운 아이디어를 촉발하기 위해 설계된 거대한 공개 자원입니다. 약 4억 개의 이미지가 짧은 캡션과 짝을 이루며, 정제되고 CLIP‑filtered됩니다.

#LAION-400M #image-text dataset #CLIP-filtered #multimodal AI #open data #machine learning #computer vision
4개월 전 · ai · - · -

AutoAugment: 데이터에서 증강 정책 학습

개요 AutoAugment는 효과적인 이미지 증강 정책을 자동으로 발견하는 방법입니다. 많은 단순 변환을 체계적으로 테스트함으로써—예를 들어…

#autoaugment #data augmentation #computer vision #image classification #machine learning #deep learning #neural networks
4개월 전 · ai · - · -

[Paper] HiStream: 중복 제거 스트리밍을 통한 효율적인 고해상도 비디오 생성

고해상도 비디오 생성은 디지털 미디어와 영화에 필수적이지만, diffusion 모델의 이차 복잡성 때문에 계산적으로 병목 현상이 발생합니다, mak...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 기억을 넘어서: Vision-Language Models의 Popularity Bias를 드러내는 Multi-Modal Ordinal Regression Benchmark

우리는 최신 비전-언어 모델(VLMs)에서 상당한 인기 편향을 드러내며, 이 모델들은 유명한 건물에 대해 최대 34% 더 높은 정확도를 달성한다 ...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 스트리밍 비디오 인스트럭션 튜닝

우리는 실시간 스트리밍 비디오 LLM인 Streamo를 소개합니다. 이는 범용 인터랙티브 어시스턴트 역할을 합니다. 기존의 온라인 비디오 모델들이 좁은 ...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 텍스트 기반 토큰 프루닝을 활용한 Fast SAM2

Segment Anything Model 2 (SAM2)는 비전 파운데이션 모델로서 프롬프트 기반 비디오 객체 분할에서 크게 발전했지만, 실제 배포는 아직 어려운 상황입니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] TICON: 슬라이드 수준 타일 컨텍스추얼라이저를 이용한 조직병리학 표현 학습

대형 전체 슬라이드 이미지(WSI)에서 작은 타일을 해석하려면 종종 더 큰 이미지 컨텍스트가 필요합니다. 우리는 트랜스포머 기반 타일 표현인 TICON을 소개합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Data Processing Inequality은 실제를 반영하는가? Low-Level Tasks의 유용성에 대하여

Data processing inequality은 정보 이론적 원칙으로, 신호의 정보 내용은 관측을 처리함으로써 증가시킬 수 없다고 명시한다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] AndroidLens: Android GUI 에이전트를 위한 중첩 서브 타깃을 활용한 장기 지연 평가

그래픽 사용자 인터페이스(GUI) 에이전트는 모바일 기기에서 자주 실행되는 장시간 지연 작업을 자동화함으로써 생산성을 크게 향상시킬 수 있습니다. 그러나, ex...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 후처리 마스크 기반 테이블 세그멘테이션을 통한 구조 좌표 추출

표에서의 Structured data extraction은 스캔된 문서와 디지털 아카이브의 document image analysis에서 중요한 역할을 합니다. 많은 방법들이 …

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 실시간 잠재력을 갖춘 Spike-Driven Video Transformer를 이용한 외과 장면 분할

현대 외과 시스템은 지능형 장면 이해에 점점 더 의존하여 향상된 수술 중 안전을 위한 시기적절한 상황 인식을 제공합니다. Within...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] GriDiT: 효율적인 긴 이미지 시퀀스 생성을 위한 Factorized Grid-Based Diffusion

현대 딥러닝 방법은 일반적으로 이미지 시퀀스를 순차적으로 쌓인 프레임들의 대형 텐서로 취급합니다. 그러나 이 직관적인 표현이 …

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Ray Search Optimization의 수렴 속도 향상: Query-Efficient Hard-Label Attacks를 위한

hard-label black-box 적대적 공격에서는 top‑1 예측 라벨만 접근 가능하기 때문에, 과도한 query 복잡성이 실용적인 적용에 큰 장애물이 된다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] SemanticGen: 시맨틱 공간에서 비디오 생성

최첨단 비디오 생성 모델은 일반적으로 VAE 공간에서 비디오 잠재 변수의 분포를 학습하고 이를 VAE 디코더를 사용해 픽셀로 매핑합니다. While th...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] LongVideoAgent: 긴 비디오를 활용한 다중 에이전트 추론

최근 멀티모달 LLM과 도구를 활용한 장시간 비디오 QA 시스템의 발전은 시간 단위 에피소드를 추론할 수 있는 가능성을 보여줍니다. 그러나 많은 방법...

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] SpatialTree: MLLM에서 공간 능력이 어떻게 확장되는가

인지 과학은 공간 능력이 인식에서 추론 및 상호작용으로 점진적으로 발달한다고 제안합니다. 그러나 멀티모달 LLMs(MLLMs)에서는 이 계층…

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 클로즈드 루프 월드 모델링을 통한 비디오 아바타의 액티브 인텔리전스

현재 video avatar generation 방법은 identity preservation과 motion alignment에서 뛰어나지만, genuine agency가 부족하고 장기적인 목표를 자율적으로 추구할 수 없습니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] FedPOD: 연합 학습을 위한 배포 가능한 학습 단위

본 논문은 연합 학습에서 학습 효율성과 통신 비용을 최적화하기 위해 FedPOD (Proportionally Orchestrated Derivative)를 제안한다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] Video Diffusion Transformers 재활용을 통한 견고한 포인트 트래킹

포인트 트래킹은 비디오 프레임 간에 대응되는 포인트를 위치 지정하는 것을 목표로 하며, 4D 재구성, 로보틱스 및 비디오 편집을 위한 기본 작업이다. Exis...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] Cube Bench: MLLMs의 공간 시각 추론을 위한 벤치마크

우리는 Cube Bench를 소개합니다. 이는 Rubik's-cube 벤치마크로, 멀티모달 대형 언어 모델(MLLMs)의 공간 및 순차적 추론을 평가하기 위해 설계되었습니다. 이 벤치마크는 ...

#research #paper #ai #machine-learning #nlp #computer-vision
4개월 전 · ai · - · -

[Paper] LEAD: End-to-End 운전에서 학습자‑전문가 비대칭 최소화

시뮬레이터는 사실상 무제한에 가까운 주행 데이터를 생성할 수 있지만, 시뮬레이션에서의 imitation learning 정책은 여전히 견고한 closed-loop performance를 달성하는 데 어려움을 겪는다.

#research #paper #ai #machine-learning #computer-vision
4개월 전 · ai · - · -

[Paper] FlashVLM: 텍스트 가이드 시각 토큰 선택 for 대규모 멀티모달 모델

대규모 비전-언어 모델(VLM)은 일반적으로 이미지 또는 비디오 프레임당 수백에서 수천 개의 visual tokens를 처리하며, 이로 인해 제곱 규모의 attention 비용이 발생하고 ...

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] 4D에서 추론 학습: Vision Language Models를 위한 동적 공간 이해

Vision-language models (VLM)은 일반적인 이해에 뛰어나지만 동적 공간 추론(DSR), 즉 객체의 변화를 추론하는 데는 약합니다.

#research #paper #ai #computer-vision
4개월 전 · ai · - · -

[Paper] diffractive decoder를 이용한 Snapshot 3D 이미지 투영

3D image display는 차세대 volumetric imaging에 필수적이지만, 3D image projection을 위한 dense depth multiplexing은 ... 때문에 여전히 어려운 과제입니다.

#research #paper #ai #computer-vision

Newer posts

Older posts