computer vision — Page 14

정렬:

3개월 전 · ai · - · -

[Paper] LayerGS: 2D Gaussian Splatting을 이용한 레이어드 3D 인간 아바타의 분해 및 인페인팅

우리는 임의의 자세를 가진 인간을 애니메이션이 가능한 다중 레이어 3D 인간 아바타로 분해하여 몸과 의복을 분리하는 새로운 프레임워크를 제안한다. 기존…

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

Silent Plumbing Assistant – 비대화형 소매 인텔리전스 에이전트

이것은 Algolia Agent Studio Challenge https://dev.to/challenges/algolia: Consumer-Facing Non-Conversational Experiences에 대한 제출물입니다. 제가 만든 것: Silent…

#AI agent #visual search #retail intelligence #product recommendation #non‑conversational AI #computer vision
3개월 전 · ai · - · -

[Paper] Mesh4D: 단일 카메라 비디오에서 4D 메시 재구성 및 추적

우리는 Mesh4D, 단안 4D 메시 재구성을 위한 피드포워드 모델을 제안한다. 동적 객체의 단안 비디오가 주어지면, 우리 모델은 객체의 c...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] QNeRF: 시뮬레이션된 게이트 기반 양자 컴퓨터에서 Neural Radiance Fields

최근 Quantum Visual Fields (QVFs)는 제공된 2D 또는 3D 신호를 학습할 때 모델 압축성과 수렴 속도에서 유망한 개선을 보여주고 있습니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] RL-AWB: 저조도 야간 장면에서 Auto White Balance 보정을 위한 Deep Reinforcement Learning

야간 색상 일정성은 저조도 노이즈와 복잡한 조명 조건 때문에 계산 사진학에서 여전히 어려운 문제입니다. 우리는 RL‑A…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 픽셀-퍼펙트 시각 기하 추정

이미지에서 깨끗하고 정확한 기하학을 복원하는 것은 로봇공학 및 증강현실에 필수적입니다. 그러나 기존의 geometry foundation models는 여전히 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Generate, Transfer, Adapt: 단일 인간 시연을 통한 Functional Dexterous Grasping 학습

Functional grasping with dexterous robotic hands는 도구 사용 및 복잡한 조작을 가능하게 하는 핵심 역량이지만, 진행은 두 가지 pe...에 의해 제한되어 왔습니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] GREx: 일반화된 Referring Expression 분할, 이해 및 생성

Referring Expression Segmentation (RES)와 Comprehension (REC)은 각각 표현에 의해 설명된 객체를 분할하고 탐지하며, Referring Expression…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] RoboVIP: Multi-View Video Generation with Visual Identity Prompting이 Robot Manipulation을 향상시킨다

manipulation data의 다양성, 양, 그리고 품질은 효과적인 robot policies를 학습하는 데 중요합니다. 그러나 하드웨어 및 물리적 설정 제한 때문에…

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 플레노프틱 비디오 생성

카메라 제어 생성 비디오 재렌더링 방법, 예를 들어 ReCamMaster와 같은 방법은 눈에 띄는 진전을 이루었습니다. 그러나 단일 뷰에서의 성공에도 불구하고…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[논문] ObjectForesight: 인간 비디오에서 미래 3D 객체 궤적 예측

인간은 물체가 interaction을 통해 어떻게 움직이거나 변할지를 손쉽게 예측할 수 있다—컵이 들어 올려지는 모습, 칼이 베이는 모습, 뚜껑이 닫히는 모습을 상상하면서.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 실세계에서 Latent Action World Models 학습

현실 세계에서 추론과 계획을 할 수 있는 에이전트는 자신의 행동 결과를 예측하는 능력이 필요합니다. world models는 이러한 …

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] MoE3D: 3D 재구성을 위한 Mixture-of-Experts 모듈

MoE3D는 깊이 경계를 선명하게 하고 기존 피드포워드 3D 모델에서 발생하는 flying-point artifacts(빨간색으로 강조된)를 완화하도록 설계된 mixture-of-experts 모듈이다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Vision-Language 모델에서 프롬프트 유발 환각의 메커니즘

Large vision-language models (VLMs)은 매우 높은 성능을 가지고 있지만, 시각적 증거보다 텍스트 프롬프트를 선호함으로써 종종 환각을 일으킵니다. 우리는 이 실패 모드를 연구합니다...

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] AI 연구 비용 절감: Task-Aware Compression이 Large Language Model Agents를 저렴하게 만든다

연구자들이 문헌 검토나 가설 생성과 같은 자율 작업에 large language models를 배치할 때, 컴퓨팅 비용이 빠르게 누적됩니다. A...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] VideoAuto‑R1: 한 번 생각하고 두 번 답하기를 통한 Video Auto Reasoning

Chain-of-thought (CoT) reasoning은 비디오 이해 작업에서 멀티모달 대형 언어 모델을 위한 강력한 도구로 부상했습니다. 그러나 그 필요성과 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] CoV: Chain-of-View 프롬프팅을 이용한 공간 추론

3D 환경에서의 Embodied question answering (EQA)은 종종 여러 시점에 걸쳐 분산되고 부분적으로 가려진 컨텍스트를 수집해야 합니다. Ho...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 작물 질병 Visual Question Answering을 위한 경량 및 설명 가능한 Vision-Language 프레임워크

작물 질병 분석을 위한 Visual Question Answering은 정확한 시각 이해와 신뢰할 수 있는 language generation이 필요합니다. 이 작업은 lightweight vi...

#research #paper #ai #nlp #computer-vision
3개월 전 · ai · - · -

Visual Anomaly Detection Models의 성능을 향상시키는 방법

학계에서 가장 좋은 방법을 적용하여 실용적인 응용에서 최대의 효과를 얻으세요. The post How to Improve the Performance of Visual Anomaly Detection Models ap...

#visual anomaly detection #computer vision #model performance #deep learning #anomaly detection
3개월 전 · ai · - · -

농업에서 인공지능의 활용

AI가 농업에 적용되는 사례에 대해 자세히 읽어보세요.

#artificial intelligence #machine learning #computer vision #IoT #precision agriculture #crop monitoring #satellite imagery #drones
3개월 전 · ai · - · -

[Paper] 다섯 개의 이질적인 이미지 데이터셋에 대한 맞춤형 CNN 훈련

딥러닝은 시각 데이터 분석을 혁신했으며, 컨볼루션 신경망(CNN)이 의미 있는 특징 표현을 학습하는 데 매우 효과적이게 되었습니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

픽셀에서 칼로리까지: GPT-4o를 활용한 멀티모달 식사 분석 엔진 구축

🍝 픽셀에서 칼로리까지 – 멀티모달 AI & 자동 칼로리 추적 우리 모두 그런 상황을 겪어봤을 겁니다: 맛있는 파스타 한 접시를 바라보며, 그것이…

#multimodal AI #GPT-4o #computer vision #nutrition analysis #Streamlit
3개월 전 · ai · - · -

[Paper] 동적 객체의 세계를 연출하기

우리 물리적 4D(3D + 시간) 세계의 동적 객체들은 끊임없이 진화하고 변형되며 다른 객체와 상호작용하여 다양한 4D 씬 다이내믹을 만들어낸다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] ImLoc: 이미지 기반 표현을 통한 시각적 로컬라이제이션 재검토

기존 시각 위치추정 방법은 일반적으로 2D 이미지 기반 방식으로, 구축 및 유지가 쉽지만 효과적인 기하학적 추론에 제한이 있거나 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Scanner-Induced Domain Shifts가 병리학 파운데이션 모델의 견고성을 약화시킨다

Pathology foundation models (PFMs)은 computational pathology의 중심이 되었으며, whole-slide images에서 feature extraction을 위한 general encoders를 제공하는 것을 목표로 합니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] ToTMNet: FFT 가속 토플리츠 시계열 혼합 네트워크 경량 원격 광혈류측정을 위한

Remote photoplethysmography (rPPG)는 상용 카메라로 촬영한 얼굴 비디오에서 혈액량 펄스 (BVP) 파형을 추정합니다. 최근의 딥 모델들은 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Diffusion-DRF: 비디오 디퓨전 파인튜닝을 위한 미분 가능한 보상 흐름

Direct Preference Optimization (DPO)는 최근 텍스트‑투‑비디오 (T2V) 생성에서 시각적 충실도와 텍스트 정렬을 향상시켜 성능을 개선했습니다. 그러나 현재 방법…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Klear: 통합 멀티태스크 오디오-비디오 공동 생성

Audio-video joint generation은 빠르게 진행되었지만, 여전히 상당한 도전 과제가 남아 있습니다. 비상업적 접근 방식은 여전히 audio‑visual asynchrony, …

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] Wow, wo, val! 포괄적인 Embodied World Model 평가 튜링 테스트

세계 모델이 Embodied AI에서 가속화를 얻음에 따라, 점점 더 많은 연구가 비디오 foundation models를 예측적 세계 모델로 활용하여 downstream 작업에 적용하는 방안을 탐구하고 있다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 픽셀 단위 다중모달 대조 학습을 이용한 원격 탐사 이미지

위성은 특히 지구 관측을 위해 위성 이미지 시계열(SITS)을 포함한 방대한 양의 데이터를 지속적으로 생성합니다. 그러나 대부분의 딥 러닝...

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] InfiniteWeb: GUI 에이전트 훈련을 위한 확장 가능한 웹 환경 합성

사용자를 대신해 그래픽 인터페이스와 상호작용하는 GUI agents는 실용적인 AI assistants를 위한 유망한 방향을 나타냅니다. 그러나 이러한 agents를 훈련하는 것은…

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] MORPHFED: 기관 간 혈액 형태학 분석을 위한 연합 학습

Automated blood morphology analysis는 저소득 및 중간소득 국가(LMICs)에서 혈액학 진단을 지원할 수 있지만, dataset shifts에 민감합니다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 교차 모달 충돌 하에서 대규모 멀티모달 모델의 추론 일관성 분석

대형 멀티모달 모델(LMMs)은 체인‑오브‑소트(Chain‑of‑Thought, CoT)를 통해 비디오 추론에서 인상적인 능력을 보여주었습니다. 그러나 그들의 추론의 견고성은…

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] 더 나아졌지만 충분하지 않다: Video ANNs를 Macaque IT Dynamics에 테스트

정적 이미지로 학습된 피드포워드 인공 신경망(ANN)은 영장류 복측 시각 흐름의 지배적인 모델로 남아 있지만, 이들은 본질적으로…

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Muses: 디자인, 구성, 생성 – 훈련 없이 비존재 판타지 3D 생물

우리는 Muses를 소개한다. 이는 피드포워드 패러다임에서 환상적인 3D 크리처 생성을 위한 최초의 training-free 방법이다. 이전 방법들은 part-aware opt...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] InfiniDepth: 임의 해상도 및 세밀한 깊이 추정 with Neural Implicit Fields

기존 depth estimation 방법은 근본적으로 이산 이미지 그리드에서 깊이를 예측하는 데 제한됩니다. 이러한 표현은 확장성을 임의의 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] 다재다능한 멀티모달 에이전트 for Multimedia Content Generation

AIGC(AI-generated content) 기술의 발전과 함께, 점점 더 많은 생성 모델들이 비디오 편집, 음악 등과 같은 분야를 혁신하고 있습니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] LTX-2: 효율적인 통합 오디오-비주얼 파운데이션 모델

최근 텍스트-투-비디오 디퓨전 모델은 설득력 있는 비디오 시퀀스를 생성할 수 있지만, 여전히 무음 상태이며 — 의미적, 감정적, 그리고 분위기적 단서를 놓치고 있습니다.

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] UniCorn: 자체 생성된 감독을 통한 자기 개선 통합 멀티모달 모델

Unified Multimodal Models (UMMs)가 cross-modal comprehension에서 눈에 띄는 성공을 거두었지만, 그들의 ... 활용 능력에는 여전히 큰 격차가 존재한다.

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] AnatomiX, 해부학 인식 기반 멀티모달 대형 언어 모델을 이용한 흉부 X-레이 해석

멀티모달 의료 대형 언어 모델은 흉부 X-레이 해석에서 인상적인 진전을 보여왔지만, 공간 추론 및 …

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

[Paper] 무선 네트워크에서의 예측 및 제어를 위한 Multi-Modal Data-Enhanced Foundation Models: 설문 조사

Foundation models (FMs)은 인공지능(AI)의 미래를 재구성하기 시작한 변혁적인 돌파구로 인식되고 있으며, 학계와 산업 전반에 걸쳐 그 영향을 확대하고 있습니다.

#research #paper #ai #machine-learning #nlp #computer-vision
3개월 전 · ai · - · -

[Paper] DiffBench Meets DiffAgent: 엔드투엔드 LLM 기반 Diffusion 가속 코드 생성

Diffusion models는 이미지 및 비디오 생성에서 눈에 띄는 성공을 거두었습니다. 그러나 그들의 본질적으로 다단계 inference 과정은 상당한 c...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] LSP-DETR: 효율적이고 확장 가능한 전슬라이드 이미지에서의 핵 분할

정밀하고 확장 가능한 cell nuclei의 instance segmentation은 computational pathology에 필수적이지만, gigapixel Whole-Slide Images는 주요 계산적 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Unified Thinker: 이미지 생성을 위한 일반 추론 모듈 코어

high-fidelity image synthesis에서 인상적인 진전에도 불구하고, generative models는 여전히 logic-intensive instruction following에 어려움을 겪으며, 지속적인…

#research #paper #ai #machine-learning #computer-vision
3개월 전 · ai · - · -

글로벌 어텐션 메커니즘: 정보를 유지하여 채널‑공간 상호작용 강화

개요: Global attention은 컴퓨터가 사진을 더 잘 볼 수 있게 도와줍니다—세부 사항을 잃지 않으면서. 전체 이미지에 걸쳐 정보를 유지함으로써, 모델은 …

#global attention #computer vision #image recognition #channel-spatial interaction #deep learning #neural networks #mobile AI
3개월 전 · ai · - · -

[Paper] ExposeAnyone: 개인화된 Audio-to-Expression Diffusion 모델은 강인한 Zero-Shot 얼굴 위조 탐지기

알려지지 않은 deepfake 변조를 탐지하는 것은 얼굴 위조 탐지에서 가장 어려운 문제 중 하나입니다. 현재 state-of-the-art 접근 방식은 ...

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] VINO: 통합 비주얼 생성기와 교차된 OmniModal 컨텍스트

우리는 VINO를 소개합니다, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 수행하는 통합 visual generator입니다. 작업별 …

#research #paper #ai #computer-vision
3개월 전 · ai · - · -

[Paper] Talk2Move: 텍스트 지시 기반 객체 수준 기하학적 변환을 위한 Reinforcement Learning (장면)

우리는 Talk2Move를 소개한다. 이는 텍스트 지시를 기반으로 장면 내 객체들의 공간 변환을 수행하는 강화 학습(RL) 기반 diffusion 프레임워크이다. Spatially m...

#research #paper #ai #computer-vision

Newer posts

Older posts