computer vision — Page 9

정렬:

1개월 전 · ai · - · -

[Paper] 단어를 통해 보기: Language Models로 시각 검색 품질 제어

텍스트-이미지 검색은 비전-언어 학습에서 기본적인 작업이지만, 실제 상황에서는 짧고 불명확한 사용자 질의 때문에 종종 어려움을 겪는다.

#research #paper #ai #computer-vision
1개월 전 · ai · - · -

[Paper] NoRD: 데이터 효율적인 Vision-Language-Action 모델, 추론 없이 주행

Vision-Language-Action (VLA) 모델은 모듈식 파이프라인을 통합된 엔드투엔드 아키텍처로 대체함으로써 자율 주행을 발전시키고 있다. 그러나 현재 VLAs…

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

[Paper] MIP Candy: 의료 영상 처리를 위한 모듈식 PyTorch 프레임워크

의료 영상 처리는 고차원 부피 데이터, 이질적인 파일 형식, 그리고 도메인 특화 훈련을 처리할 수 있는 특수 소프트웨어를 요구합니다.

#research #paper #ai #machine-learning #computer-vision
1개월 전 · ai · - · -

소상공인 매장 업무 효율화 AI 솔루션 ‘모코플렉스’, AI 헤어 스타일링 ‘스타일싱크’ 출시

!소상공인 매장 업무 효율화 AI 솔루션 ‘모코플렉스’, AI 헤어 스타일링 ‘스타일싱크’ 출시https://besuccess.com/wp-content/uploads/2026/02/%EC%9D%B4%EB%AF%88%EC%A7%80-%EB%A8%8C%EC%86%8C...

#AI solution #small business #retail efficiency #hair styling #computer vision #visualization #MokoFlex #StyleSync
2개월 전 · ai · - · -

[Paper] Mobile-O: 모바일 기기에서의 통합 멀티모달 이해 및 생성

통합 멀티모달 모델은 단일 아키텍처 내에서 시각적 콘텐츠를 이해하고 생성할 수 있습니다. 기존 모델들은 그러나 여전히 data-hungry하고 너무 …

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] tttLRM: 긴 컨텍스트와 자동회귀 3D 재구성을 위한 Test-Time Training

우리는 tttLRM이라는 새로운 대형 3D 재구성 모델을 제안한다. 이 모델은 Test-Time Training (TTT) 레이어를 활용하여 장기간 컨텍스트와 자동 회귀(autoregressive) 3D 재구성을 가능하게 한다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 시뮬레이션-레디 클러터드 씬 추정 via Physics-aware Joint Shape and Pose Optimization

실제 세계 관측으로부터 시뮬레이션 준비된 장면을 추정하는 것은 하위 계획 및 정책 학습 작업에 필수적입니다. 안타깝게도 기존 방법들은 …

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Large Language Models는 데이터 시각화 규칙을 이해할까?

Data visualization 규칙은 디자인과 인지에 대한 수십 년간의 연구에서 도출된 것으로, 신뢰할 수 있는 차트 커뮤니케이션을 보장합니다. 이전 연구에서는 대규모…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] NovaPlan: 제로샷 장기 조작을 위한 폐쇄 루프 비디오 언어 계획

긴 시간 범위의 작업을 해결하려면 로봇이 고수준 의미 추론과 저수준 물리적 상호작용을 통합해야 합니다. Vision-language models (VLMs) ...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 주석 병목 현상을 초월하여: AI 기반 생물학 및 의학에서의 발견

전문가 주석에 대한 의존은 오랫동안 인공지능을 생물의학에 적용하는 데 있어 주요 속도 제한 단계였습니다. While supe...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] StructXLIP: 비전-언어 모델을 멀티모달 구조적 단서로 강화

에지 기반 표현은 시각적 이해를 위한 기본적인 단서이며, 초기 시각 연구에 뿌리를 두고 오늘날에도 여전히 중심적인 원리입니다. 우리는 이…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · devops · - · -

[Paper] 선형 레저버: 대각화 기반 최적화

우리는 선형 Echo State Networks (ESNs)를 위한 대각화 기반 최적화를 도입하여, 저장소 상태 업데이트의 단계별 계산 복잡성을 감소시킵니다.

#research #paper #devops #computer-vision
2개월 전 · ai · - · -

[Paper] CORVET: CORDIC 기반, 자원 절약형 혼합 정밀도 벡터 처리 엔진 for High-Throughput AIoT applications

이 브리프는 runtime-adaptive, performance-enhanced vector engine을 제시하며, edge AI acceleration을 위한 low-resource, iterative CORDIC-based MAC unit을 특징으로 합니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] SARAH: 공간 인식 실시간 에이전시 인간

embodied agents가 VR, telepresence, 그리고 digital human 애플리케이션의 중심이 됨에 따라, 그들의 움직임은 speech-aligned gestures를 넘어야 합니다: agents는 turn t...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 노이즈의 기하학: 확산 모델은 왜 노이즈 컨디셔닝이 필요 없는가

Autonomous (noise-agnostic) 생성 모델인 Equilibrium Matching과 blind diffusion은 단일, 시간 불변...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 비지도 Convolutional LSTM을 이용한 시공간‑분광 표현 학습

Integral Field Spectroscopy (IFS) 설문조사는 공간 및 분광 차원 모두에서 학습할 수 있는 독특한 새로운 환경을 제공하며, pre… 를 밝히는 데 도움이 될 수 있습니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 강인한 객체 인식을 위한 Latent Equivariant Operators: 약속과 도전

딥러닝이 컴퓨터 비전에서 성공을 거두었음에도 불구하고, 학습 중에 거의 보지 못한 그룹 대칭 변환을 겪은 객체를 인식하는 데 어려움이 지속됩니다. 기존 방법들은 데이터 증강에 의존하는데, 이는 계산 비용이 많이 들고 범위가 제한적이며, 혹은 견고함이 부족한 수작업 특징에 의존합니다. 본 연구에서는 보다 넓은 범위의 변환에 대한 불변성을 달성하기 위해 그룹-에퀴베리언트 컨볼루션과 어텐션 메커니즘을 통합한 새로운 아키텍처를 제안합니다. 우리의 모델은 제어된 변환을 가진 합성 데이터셋으로 학습되고 실제 벤치마크에서 평가되어, 최신 최첨단 베이스라인 대비 top-1 accuracy에서 12% 향상을 보여줍니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] Degradation Manifolds를 통한 자기 인식 객체 탐지

Object detectors는 정상적인 영상 조건에서 강력한 성능을 달성하지만, 블러, 노이즈, 압축, 악천후 등에 노출되면 조용히 실패할 수 있습니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 양자 강화 위성 이미지 분류

우리는 quantum feature extraction 방법을 적용하여 우주 응용 분야의 다중 클래스 이미지 분류를 향상시키는 사례를 보여줍니다. By harnessing the dyna...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

아마도 놓치고 있는 전처리 단계 (그리고 모델이 그 대가를 치르는 이유)

저대비 이미지와 모델이 어려워하는 이유 당신은 데이터를 수집하는 데 며칠을 보냅니다. 올바른 architecture를 선택합니다. learning rate를 조정합니다. model을 학습시키고, …

#data preprocessing #image augmentation #computer vision #model performance #lighting variation #training data quality
2개월 전 · ai · - · -

[Paper] OpenEarthAgent: 툴 기반 지리공간 에이전트를 위한 통합 프레임워크

최근 멀티모달 추론의 진보로 이미지 를 해석하고 이를 언어와 연결하며 구조화된 분석 작업을 수행할 수 있는 에이전트가 가능해졌습니다. 확장...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 시각이 언어를 압도할 때: VLAs에서 반사실적 실패 평가 및 완화

Vision-Language-Action models (VLAs)는 언어 지시를 로봇 제어에 연결할 것을 약속하지만, 실제로는 언어를 충실히 따르지 못하는 경우가 많다. When pr...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장

대규모 비전-언어 모델(LVLMs)에 대한 블랙박스 적대적 공격은 그래디언트가 없고 복잡한 멀티모달 경계 때문에 어려운 과제입니다. 기존 연구는…

#research #paper #ai #machine-learning #nlp #computer-vision
2개월 전 · ai · - · -

[Paper] IntRec: Intent 기반 Retrieval with Contrastive Refinement

복잡한 장면에서 사용자가 지정한 객체를 검색하는 것은 특히 쿼리가 모호하거나 유사한 객체가 여러 개 포함될 때 어려운 과제입니다. Exi...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] RetouchIQ: MLLM 에이전트를 활용한 지시 기반 이미지 리터칭과 제너럴리스트 보상

최근 멀티모달 대형 언어 모델(MLLMs)의 발전은 전문 도구 기반 이미지에 대한 비전‑언어 추론을 확장할 큰 잠재력을 보여주고 있습니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] TeCoNeRV: 시간적 일관성을 활용한 비디오용 압축 가능한 신경 표현

Implicit Neural Representations (INRs)는 최근 비디오 압축에서 인상적인 성능을 보여주었습니다. 그러나 별도의 INR을 개별적으로 과적합해야 하기 때문에…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 인간형 로봇 엔드 이펙터 제어 학습을 위한 Open-Vocabulary Visual Loco-Manipulation

야생 환경에서 인간형 로봇을 사용한 임의 물체에 대한 Visual loco-manipulation은 정확한 end-effector (EE) 제어와 일반화 가능한 이해를 필요로 한다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Saliency-Aware Multi-Route Thinking: Vision-Language Reasoning 재검토

Vision-language models (VLMs)는 시각 및 텍스트 모달리티를 공동으로 활용하여 추론하는 것을 목표로 합니다. 추가적인 inference-time computation을 할당하는 것이 ...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 실제 세계에서 상황 인식 학습

인간 인식의 핵심적인 측면은 situated awareness, 즉 주변 물리적 환경과 자신을 연결하고 가능한 행동을 추론하는 능력이다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] VETime: 비전 강화 제로샷 시계열 이상 탐지

시계열 이상 탐지(TSAD)는 즉각적인 포인트 이상(Point Anomalies)과 장기적인 컨텍스트 이상(Context Anomalies)을 모두 식별해야 합니다. 그러나 기존 파운데이션 모델은 …

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] PredMapNet: 일관된 온라인 HD 벡터화 지도 구축을 위한 미래 및 과거 추론

High-definition (HD) maps는 자율 주행에 필수적이며, 네비게이션 및 플래닝을 지원하기 위해 도로 요소들의 구조화된 표현을 제공합니다. 그러나, ...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[논문] Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

Adversarial diffusion 및 diffusion-inversion 방법은 비쌍 이미지-이미지 변환을 발전시켰지만, 각각은 주요 제한점에 직면합니다. 적대적 접근 방식은 …

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 스타일 인식 글로스 제어를 위한 생성적 비포토리얼리스틱 렌더링

인간은 시각적 외관을 통해 물체의 재질 특성을 추론할 수 있으며, 이러한 능력은 예술적 묘사에도 확장되어, 유사한 지각적 ...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

Structured AI (YC F25) 채용 중

개요 Structured AI는 건설 설계 엔지니어링을 위한 AI 인력을 구축하고 있습니다. 문제 현재, 수십억 달러와 수개월에 달하는 인간 노력은…

#AI agents #computer vision #construction design #QA/QC automation #design engineering #startup #AI co‑design
2개월 전 · ai · - · -

[Paper] VideoSketcher: Video Models Prior가 다목적 순차 스케치 생성을 가능하게 함

스케치 작업은 본질적으로 순차적인 과정으로, 스트로크가 의미 있는 순서대로 그려져 아이디어를 탐색하고 다듬는다. 그러나 대부분의 생성 모델은...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 작업에 구애받지 않는 Continual Learning을 이용한 흉부 방사선 사진 분류

흉부 방사선 사진 분류기( chest radiograph classifiers )의 임상 배포를 위해서는 새로운 데이터셋(datasets)이 제공될 때 이전에 관찰된 데이터에 대해 재학습 없이 모델을 업데이트할 수 있어야 합니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 기상 데이터와 하늘 이미지가 신경망 모델과 만나 태양광 발전량 예측

전통적인 에너지에 대한 대안으로 재생 가능 에너지, 특히 태양광 에너지의 사용이 증가함에 따라, 이에 대한 연구 관심이 높아지고 있다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] NeRFscopy: Neural Radiance Fields를 이용한 in‑vivo 시간 변동 조직의 내시경 영상

Endoscopy는 의료 영상에서 필수적이며, 진단, 예후 및 치료에 사용됩니다. 견고한 dynamic 3D reconstruction pipeline을 개발하는 것은 endoscopic vi...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 이해 vs. 생성: 멀티모달 모델에서 최적화 딜레마 탐색

멀티모달 모델에 대한 현재 연구는 generative capabilities를 향상시키면 understanding이 희생되는 경우가 많고, 그 반대도 마찬가지인 핵심적인 과제에 직면해 있습니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] RaCo: 실용적인 학습 키포인트를 위한 Ranking 및 Covariance

이 논문은 RaCo라는 경량 신경망을 소개한다. 이 신경망은 다양한 3D 컴퓨터 비전 작업에 적합한 견고하고 다목적 키포인트를 학습하도록 설계되었다. Th...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Language and Geometry 기반 Sparse Voxel Representations를 이용한 Holistic Scene Understanding

기존 3D 오픈-보카뷸러리 씬 언더스탠딩 방법들은 주로 2D 파운데이션 모델에서 언어 특징을 추출해 3D 특징 필드에 증류하는 데 중점을 두지만, 대규모...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 가중치 기반 LoRAs를 이용한 시각적 유추 공간 확장

Visual analogy learning은 텍스트 설명이 아니라 시연을 통해 이미지 조작을 가능하게 하며, 사용자가 복잡한 변환을 지정할 수 있도록 합니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] Sphere Encoder를 이용한 이미지 생성

우리는 Sphere Encoder를 소개한다. 이는 단일 forward pass로 이미지를 생성할 수 있는 효율적인 generative framework이며, 다단계 diffusion 모델과 경쟁한다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Neurosim: Neuromorphic Robot Perception을 위한 고속 시뮬레이터

Neurosim은 dynamic vision sensors, RGB cameras, depth sensors, inertial sensors와 같은 센서를 시뮬레이션하기 위한 빠르고 실시간이며 고성능 라이브러리입니다....

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] ThermEval: Vision‑Language 모델의 열영상 평가를 위한 구조화된 벤치마크

Vision language models (VLMs)은 RGB 이미지에서 강력한 성능을 달성하지만, 열 이미지에는 일반화되지 않는다. Thermal sensing은 중요한 역할을 한다 ...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] PAct: 파트‑분해 단일‑뷰 관절 객체 생성

Articulated objects는 인터랙티브 3D 애플리케이션의 핵심이며, 여기에는 embodied AI, robotics, VR/AR이 포함되고, 기능적 파트 분해와 kinematic …

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Wrivinder: 위성 이미지에 Ground Images를 Geo‑locating하기 위한 Spatial Intelligence를 향하여

ground-level imagery와 geo-registered satellite maps를 정렬하는 것은 지도 작성, 내비게이션 및 상황 인식에 필수적이지만, 여전히 도전 과제로 남아 있다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 적절한 전문가 선택: 에이전트형 헬스케어 시스템을 위한 도구로서 어텐티브 뉴럴 프로세스 기반 작업 특화 모델 선택

Task-specialized models는 agentic healthcare systems의 핵심을 이루며, agents가 disease diagnosis와 같은 작업 전반에 걸쳐 clinical queries에 답할 수 있게 합니다, ...

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts