computer vision — Page 11

정렬:

2개월 전 · ai · - · -

[Paper] SwimBird: 하이브리드 자동회귀 MLLMs에서 전환 가능한 추론 모드 유도

멀티모달 대형 언어 모델(MLLMs)은 시각과 언어를 연결함으로써 멀티모달 인식 및 추론에서 눈에 띄는 진전을 이루었습니다. 그러나 대부분의 기존…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] CommCP: 효율적인 다중 에이전트 협조를 위한 LLM 기반 커뮤니케이션과 컨포멀 프레딕션

인간이 자연어로 제공하는 과제를 완수하기 위해 로봇은 명령을 해석하고, 장면 이해를 위한 관련 질문을 생성하고 답변해야 합니다, ...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 기하학으로 사고하기: 공간 추론을 위한 Active Geometry Integration

최근 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용한 공간 추론의 진전은 3D 인코더로부터의 기하학적 사전지식을 점점 더 많이 활용하고 있다. 그러나 대부분은 ...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] InterPrior: 물리 기반 인간-객체 상호작용을 위한 Generative Control 스케일링

인간은 명시적인 whole-body movements 수준에서 물체와의 whole-body interactions를 계획하는 경우가 드물다. affordance와 같은 고수준 의도는 목표를 정의한다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] V-Retrver: 증거 기반 에이전트적 추론을 통한 범용 멀티모달 검색

멀티모달 대형 언어 모델(MLLMs)은 최근 보편적인 멀티모달 검색에 적용되었으며, 여기서 체인오브쏘트(Chain-of-Thought, CoT) 추론이 후보...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Splat and Distill: Feed-Forward 3D Reconstruction을 활용한 교사 모델 강화 및 3D-Aware Distillation

Vision Foundation Models (VFMs)는 다양한 다운스트림 2D 작업에 적용될 때 눈에 띄는 성공을 거두었습니다. 그 효과에도 불구하고, 종종 …

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Context Forcing: 긴 컨텍스트를 활용한 일관된 Autoregressive 비디오 생성

실시간 장시간 비디오 생성에 대한 최근 접근 방식은 일반적으로 스트리밍 튜닝 전략을 사용하며, 짧은 컨텍스트를 이용해 롱‑컨텍스트 학생을 학습시키려고 시도합니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] GenArena: 시각 생성 작업을 위한 인간 정렬 평가를 어떻게 달성할 수 있을까?

시각 생성 모델의 급속한 발전은 전통적인 평가 접근 방식을 앞서고 있어, Vision-Language Models를 대체 수단으로 채택할 필요가 있다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · software · - · -

이미지에서 복사-붙여넣기 중단: Python으로 범용 화면 번역기 만들기

Lingo‑Live는 우리 대부분이 느낀 좌절감에서 시작되었습니다: YouTube 동영상이나 화면에 표시된 텍스트를 복사하려고 하면 불가능합니다. 대부분의 사람들은 결국 e...

#python #screen-translator #ocr #computer-vision #desktop-app #hotkey #ui-design #translation-api
2개월 전 · ai · - · -

[Paper] 신경 영감 기반 시각 패턴 인식: Biological Reservoir Computing을 이용한

본 논문에서는 물리적 구현체로서 in vitro cultured cortical neurons 네트워크를 활용한 신경 영감 기반 reservoir computing (RC) 접근법을 제시한다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 강화된 어텐션 학습

강화 학습(RL)을 통한 사후 훈련은 테스트 시 스케일링을 통해 대형 언어 모델(LLMs)의 추론 능력을 크게 향상시켰습니다. 그러나, 확장하는 th...

#research #paper #ai #machine-learning #nlp #computer-vision
2개월 전 · ai · - · -

[Paper] CoWTracker: 상관 대신 워핑으로 추적

Dense point tracking은 컴퓨터 비전의 기본적인 문제이며, 비디오 분석부터 로봇 매니퓰레이션에 이르기까지 다양한 응용 분야가 있다. State-of-the-art tracke...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] PerpetualWonder: 장기‑시간 행동 조건부 4D 씬 생성

우리는 PerpetualWonder라는 하이브리드 생성 시뮬레이터를 소개합니다. 이 시뮬레이터는 단일 이미지로부터 장기적인, 행동 조건부 4D 씬 생성을 가능하게 합니다. 현재 연구...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 효율적인 Diffusion을 위한 라미네이팅 표현 Autoencoders

최근 연구에 따르면, diffusion models는 pixel-space latents 대신 SSL patch features에 직접 작동함으로써 고품질 이미지를 생성할 수 있음을 보여주었습니다. 하지만...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] LLaVA가 객체를 만날 때: 비전-언어 모델을 위한 토큰 구성

현재 자동 회귀 Vision Language Models (VLMs)은 일반적으로 이미지를 표현하기 위해 많은 수의 visual tokens에 의존하므로, 더 많은 compute가 필요하게 된다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] PDF-HR: 휴머노이드 로봇을 위한 포즈 거리 필드

포즈와 모션 프라이어는 휴머노이드 로봇공학에서 중요한 역할을 합니다. 이러한 프라이어는 인간 모션 복구(HMR) 분야에서 널리 연구되어 왔으며…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] LitS: 포인트 클라우드를 위한 새로운 이웃 디스크립터

3D 스캐닝 기술의 발전으로 포인트 클라우드는 3D 공간 데이터를 표현하는 데 기본이 되었으며, 그 적용 범위는 다양하게…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 복권이 아니라 경주다: Gradient Descent가 Network's Capacity를 작업에 맞게 어떻게 조정하는지 이해하기

우리의 신경망에 대한 이론적 이해는 그들의 실증적 성공에 뒤처지고 있습니다. 중요한 설명되지 않은 현상 중 하나는 왜 그리고 어떻게, ...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 신뢰할 수 있고 설명 가능한 손톱 질환 분류를 향하여: Adversarial Training 및 Grad-CAM 시각화 활용

인간 손톱 질환은 모든 연령대에서 점차 관찰되며, 특히 노인들 사이에서 흔히 심각해질 때까지 무시되는 경우가 많습니다. 조기 발견…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] XtraLight-MedMamba를 이용한 신생물성 관형 선종 분류

정기적인 대장내시경 검진 중 전암성 폴립의 정확한 위험 계층화는 대장암(CR…) 발생 위험을 낮추는 데 필수적이다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] EventNeuS: 단일 이벤트 카메라로부터 3D 메쉬 재구성

Event 카메라는 많은 상황에서 RGB 카메라에 대한 상당한 대안을 제공합니다. 최근에 event 기반 novel-view synthesis에 관한 연구가 있지만, dense 3D mesh…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] PrevizWhiz: 거친 3D 씬과 2D 비디오를 결합해 생성 비디오 프리비주얼라이제이션을 안내

프리프로덕션 단계에서 영화 제작자와 3D 애니메이션 전문가들은 전체 규모 제작에 들어가기 전에 영화의 가능성을 탐색하기 위해 아이디어를 신속하게 프로토타입해야 하지만, 기존의...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] AutoFigure: 출판용 과학 일러스트레이션 생성 및 정제

고품질 scientific illustrations는 복잡한 과학 및 기술 개념을 효과적으로 전달하는 데 필수적이지만, 그 수동 제작은 여전히 …

#research #paper #ai #machine-learning #nlp #computer-vision
2개월 전 · ai · - · -

[Paper] 연속 제어를 이용한 편집 모델의 적응형 오리진 가이드

Diffusion 기반 편집 모델은 의미론적 이미지 및 비디오 조작을 위한 강력한 도구로 부상했습니다. 그러나 기존 모델은 부드럽게…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 딥러닝 기반 pan-phenomic 데이터가 조류 visual disparity의 폭발적 진화를 밝혀낸다

생물학적 형태학의 진화는 자연 세계의 다양성을 이해하는 데 핵심적이지만, 전통적인 분석은 종종 주관적인 편향을 포함한다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Fast‑Slow 효율적인 훈련을 위한 Multimodal Large Language Models의 Visual Token Pruning

멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 거대한 모델 크기와 시각 토큰 수와 관련된 심각한 학습 비효율성 문제를 겪고 있다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] Autoregressive Multiscale Image Generation을 위한 Progressive Checkerboards

자동회귀 이미지 생성에서 주요 과제는 상호 의존성을 모델링하면서도 독립적인 위치들을 병렬적으로 효율적으로 샘플링하는 것입니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] FullStack-Agent: 개발 지향 테스트와 저장소 역번역을 통한 에이전시 풀스택 웹 코딩 강화

비전문가 사용자가 복잡한 인터랙티브 웹사이트를 개발하도록 돕는 것은 LLM‑powered code agents에게 인기 있는 작업이 되었습니다. 그러나 기존 code agents는 …

#research #paper #ai #nlp #computer-vision
2개월 전 · ai · - · -

[Paper] FOVI: 생물학적 영감을 받은 foveated 인터페이스 for deep vision 모델

인간 시각은 foveated 구조를 가지고 있으며, 해상도가 가변적으로 큰 시야의 중심에서 최고에 달한다; 이는 능동적 감지를 위한 효율적인 절충을 반영한다, allo...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

MATLAB 및 Python에서 스테레오 매칭 알고리즘

Stereo matching은 컴퓨터 비전의 핵심 문제이며, 특히 대형 이미지나 실시간 시스템에서 작업할 때 성능이 중요합니다. 이 포스트에서는…

#stereo matching #computer vision #MATLAB #Python #block matching #semi-global matching #belief propagation #algorithm implementation
2개월 전 · ai · - · -

[Paper] PixelGen: Pixel Diffusion이 Perceptual Loss를 적용한 Latent Diffusion을 능가한다

Pixel diffusion은 이미지를 픽셀 공간에서 직접, 엔드‑투‑엔드 방식으로 생성하여, 두 단계 잠재 모델에서 VAE가 도입하는 아티팩트와 병목 현상을 피합니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 멀티-헤드 자동 세분화: 디텍션 헤드를 컨텍스추얼 레이어 신경망에 통합

딥러닝 기반 자동 세분화는 방사선 치료에서 점점 더 많이 사용되고 있지만, 기존 모델은 종종 해부학적으로 타당하지 않은 거짓 양성 결과를 생성하거나 h...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] MentisOculi: 정신 이미지와 추론의 한계 밝히기

프론티어 모델은 시각 정보를 단순히 받아들이는 멀티모달 대형 언어 모델(MLLMs)에서 통합 멀티모달 모델(UMMs)으로 전환하고 있다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] RANKVIDEO: 텍스트‑비디오 검색을 위한 Reasoning Reranking

Reranking은 현대 검색 시스템의 핵심 요소이며, 일반적으로 효율적인 first-stage retriever와 보다 표현력이 풍부한 모델을 결합하여 재…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] UniReason 1.0: 세계 지식에 정렬된 이미지 생성 및 편집을 위한 통합 추론 프레임워크

통합 멀티모달 모델은 깊은 추론을 요구하는 복잡한 합성 작업에서 종종 어려움을 겪으며, 일반적으로 텍스트-투-이미지 생성 및 이미지 편집을…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] SelvaMask: 열대 숲 및 그 너머에서 나무 분할

Tropical forests는 지구의 대부분의 나무 생물다양성을 보유하고 있으며, 전 세계 생태 균형에 필수적이다. 특히 Canopy trees는 불균형적인 역할을 한다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Catalyst: Elastic Scaling을 통한 Out-of-Distribution Detection

Out-of-distribution (OOD) 탐지는 딥 뉴럴 네트워크를 안전하게 배포하기 위해 필수적입니다. 최신 사후(post-hoc) 방법들은 일반적으로 OOD 점수 f...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] ReasonEdit: 인간 추론을 이용한 Vision-Language 모델 편집

Model editing은 대규모 사전 학습된 모델의 오류를 관련 없는 행동을 변경하지 않고 수정하는 것을 목표로 합니다. 최근 몇몇 연구에서는 vision-language model을 편집했지만…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] SoMA: 로봇 소프트바디 조작을 위한 Real-to-Sim Neural Simulator

풍부한 상호작용 하에서 변형 가능한 객체를 시뮬레이션하는 것은 real-to-sim 로봇 조작에서 근본적인 과제로 남아 있으며, 동역학은 환경에 의해 공동으로 구동됩니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] Superman: Skeleton 및 Vision을 통합한 인간 동작 인식 및 생성

인간 동작 분석 작업은 시간적 3D 포즈 추정, 동작 예측, 동작 인-비트윈과 같은 작업을 포함하며, 컴퓨터 비전에서 필수적인 역할을 합니다. 그러나...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

Carbon Robotics가 식물을 감지하고 식별하는 AI 모델을 구축했습니다

Carbon Robotics의 Large Plant Model은 농부들이 기계를 재훈련할 필요 없이 새로운 종류의 잡초를 죽일 수 있게 해줍니다....

#AI #computer vision #plant identification #weed control #agricultural robotics #Carbon Robotics #large plant model
2개월 전 · ai · - · -

[Paper] 다중 뷰 협착증 분류: 실제 임상 데이터를 활용한 Transformer 기반 다중 인스턴스 학습

관상동맥 협착은 심혈관 질환의 주요 원인 중 하나이며, 다중 혈관조영술 영상을 통해 관상동맥을 분석함으로써 진단됩니다. 비록 nu...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 원 사이즈, 다수 맞춤: 대규모 광고 이미지 생성에서 다양한 그룹별 클릭 선호 정렬

광고 이미지 생성은 클릭률(CTR)과 같은 온라인 지표에 점점 더 초점을 맞추고 있지만, 기존 접근 방식은 “원 사이즈 모두에게 맞는” 전략을 채택하고 있다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 광학 문자 인식을 통한 유전체 모델링 재고찰

최근 유전체 기반 모델들은 DNA를 일차원 토큰 시퀀스로 취급하는 대형 언어 모델(Large Language Model) 아키텍처를 주로 채택합니다. 그러나, 포괄적인 …

#research #paper #ai #machine-learning #nlp #computer-vision
2개월 전 · ai · - · -

[Paper] UniDriveDreamer: 자율 주행을 위한 단일 단계 멀티모달 월드 모델

World models는 자율 주행에서 데이터 합성을 위한 상당한 가능성을 보여주었습니다. 그러나 기존 방법들은 주로 단일 모달에 집중하고 있습니다...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] SurfSplat: 피드포워드 2D 가우시안 스플래팅을 표면 연속성 사전으로 정복하기

희소 이미지로부터 3D 장면을 재구성하는 것은 최적화 없이 정확한 geometry와 texture를 복원하는 것이 어려워 여전히 도전적인 과제이다. R...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

AI로 원본 제품 사진을 스튜디오 퀄리티 이미지로 바꾸는 방법

판매되지 않는 흐릿하고 조명이 부족한 원시 제품 사진에 고민하고 계신가요? 2026년에는 AI product‑photography enhancement를 통해 원시 촬영을 스튜디오 수준의 이미지로 변환할 수 있습니다.

#AI image enhancement #product photography #e‑commerce visuals #Olio AI #computer vision #studio‑quality images
2개월 전 · ai · - · -

[Paper] VideoGPA: Geometry Priors를 증류하여 3D-Consistent Video Generation

최근 비디오 확산 모델(VDMs)은 시각적으로 인상적인 결과를 만들어내지만, 근본적으로 3D 구조적 일관성을 유지하는 데 어려움을 겪으며, 종종 결과가…

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts