-
- · ai · - · -
AI 배경 제거기: 이미지 품질 및 에지 정확도
소개 AI 배경 제거기는 잘 작동할 때 거의 마법처럼 느껴지고—작동하지 않을 때는 좌절감을 줍니다. 차이는 보통 두 가지 얇은…
- · ai · - · -
[Paper] 모멘트 기반 3D Gaussian Splatting: 순서 독립 투과율을 통한 볼류메트릭 차폐 해결
3D Gaussian Splatting(3DGS)의 최근 성공은 빠른 최적화와 실시간 고품질 라디언스 렌더링을 가능하게 함으로써 새로운 뷰 합성을 재구성했습니다.
- · ai · - · -
[Paper] V-RGBX: 내재적 속성에 대한 정확한 제어를 통한 비디오 편집
대규모 비디오 생성 모델은 실제 장면에서 포토리얼리스틱한 외관과 라이트 인터랙션을 모델링하는 데 놀라운 잠재력을 보여주었습니다. 그러나...
- · ai · - · -
[Paper] Particulate: Feed-Forward 3D 객체 관절화
우리는 Particulate라는 feed-forward 접근 방식을 제시한다. 이 방법은 일상적인 객체의 단일 정적 3D mesh를 입력으로 받아, 기본적인 articulation의 모든 속성을 직접 추론한다.
- · ai · - · -
[Paper] AnchorDream: 비디오 디퓨전을 활용한 Embodiment-Aware 로봇 데이터 합성
대규모 및 다양한 로봇 시연(데모)의 수집은 모방 학습(imitation learning)에서 여전히 주요 병목 현상으로 남아 있습니다. 실제 환경에서 데이터 획득이 비용이 많이 들고 …
- · ai · - · -
[Paper] Structure From Tracking: 디스틸링 구조 보존 모션 for Video Generation
현실은 rigid constraints와 deformable structures 사이의 춤이다. video models에게는 fidelity를 유지하면서 structure를 보존하는 motion을 생성한다는 의미이다.
- · ai · - · -
[Paper] 불확실성 인식 도메인 적응을 이용한 임상 사진에서의 백반증 분할
일상적인 clinical photographs에서 vitiligo 범위를 정확하게 정량화하는 것은 treatment response의 longitudinal monitoring에 필수적입니다. 우리는 신뢰할 수 있는, f...
- · ai · - · -
[Paper] MatAnyone 2: 학습된 품질 평가자를 통한 비디오 매팅 확장
Video matting은 기존 데이터셋의 규모와 현실감에 의해 제한됩니다. Segmentation 데이터를 활용하면 의미적 안정성을 향상시킬 수 있지만, 효과의 부족…
- · ai · - · -
[Paper] 흐릿한 지문: AI 이미지 지문의 견고성에 대한 체계적 평가
모델 지문 탐지 기술은 AI 생성 이미지의 출처 모델을 식별하는 유망한 접근법으로 떠오였지만, 그 견고성은…
- · ai · - · -
[Paper] Diffusion-Based Domain Adaptation을 이용한 세포 카운팅의 도메인 격차 감소
현실적인 합성 현미경 이미지를 생성하는 것은 라벨이 부족한 환경에서 딥러닝 모델을 훈련시키는 데 매우 중요합니다. 예를 들어, 많은 세포를 포함한 세포 카운팅과 같은 경우에 특히 그렇습니다.
- · ai · - · -
[Paper] SVG‑T2I: 변분 오토인코더 없이 텍스트‑투‑이미지 라텐트 디퓨전 모델 확장
Visual Foundation Model (VFM) 표현에 기반한 Visual generation은 시각 이해와 ...
- · ai · - · -
[Paper] DentalGPT: 치의학에서 멀티모달 복합 추론을 장려하기
치과 분야에서 멀티모달 데이터의 신뢰할 수 있는 해석은 자동 구강 의료에 필수적이지만, 현재의 멀티모달 대형 언어 모델(MLLMs)은 어려움을 겪고 있다.
- · ai · - · -
[Paper] HFS: 효율적인 비디오 추론을 위한 전체론적 쿼리 인식 프레임 선택
비디오 이해에서 키 프레임 선택은 상당한 과제를 제시합니다. 프레임을 독립적으로 점수화하는 전통적인 top‑K 선택 방법은 종종 실패합니다…
- · ai · - · -
[Paper] Parallax: 이기종 엣지 시스템에서 연산자 폴백을 위한 런타임 병렬화
실시간 DNN 애플리케이션에 대한 수요가 에지 디바이스에서 증가함에 따라, 점점 더 복잡해지는 모델의 빠른 추론이 필요합니다. 많은 디바이스가 sp...을 포함하고 있지만.
- · ai · - · -
[Paper] StereoSpace: Depth-Free 스테레오 기하학 합성 via End-to-End Diffusion in a Canonical Space
우리는 StereoSpace를 소개합니다. 이는 monocular-to-stereo synthesis를 위한 diffusion-based 프레임워크로, geometry를 순수하게 viewpoint conditioning을 통해 모델링하며, …
- · ai · - · -
[Paper] WorldLens: 실제 세계에서 Driving World Models의 전 스펙트럼 평가
Generative world models는 embodied AI를 재구성하고, 에이전트가 설득력 있게 보이지만 종종 물리적으로는 실패하는 현실적인 4D 주행 환경을 합성하도록 합니다.
- · ai · - · -
[Paper] 스테레오와 Mid-Level Vision을 활용한 동적 도시 내비게이션 강화
언어와 비전 분야에서 파운데이션 모델의 성공은 완전한 엔드‑투‑엔드 로봇 내비게이션 파운데이션 모델(NFMs)에 대한 연구를 촉진했다. NFMs는 모노…
- · ai · - · -
[Paper] Omni-Attribute: 시각 개념 개인화를 위한 Open-vocabulary Attribute Encoder
Visual concept personalization은 정체성, 표정, 조명, 스타일과 같은 특정 이미지 속성만을 보이지 않는 컨텍스트로 전달하는 것을 목표로 합니다. 그러나...
- · ai · - · -
[Paper] SceneMaker: Open-set 3D 씬 생성과 Decoupled De-occlusion 및 Pose Estimation Model
본 연구에서는 SceneMaker라는 분리형 3D 씬 생성 프레임워크를 제안한다. 충분한 오픈셋 디오클루전 및 포즈 추정 프리…
- · ai · - · -
[Paper] 양방향 Normalizing Flow: 데이터에서 노이즈로 그리고 다시
Normalizing Flows (NFs)는 생성 모델링을 위한 원칙적인 프레임워크로 확립되었습니다. 표준 NFs는 forward process와 reverse process로 구성됩니다.
- · ai · - · -
[Paper] Group Diffusion: 이미지 생성 향상을 위한 크로스‑샘플 협업 활성화
본 연구에서는 diffusion model 추론에서 아직 활용되지 않은 신호를 탐구합니다. 기존의 모든 방법이 추론 시 이미지를 독립적으로 생성하는 반면, 우리는 대신 …
- · ai · - · -
[Paper] E-RayZer: 셀프슈퍼바이즈드 3D 재구성을 Spatial Visual Pre-training으로
Self-supervised pre-training은 언어, 개별 2D 이미지 및 비디오에 대한 foundation models에 혁신을 가져왔지만, 3D 학습에 대해서는 아직 크게 탐구되지 않았다...
- · ai · - · -
[Paper] 우리는 텍스트‑투‑3D 생성에서 RL에 준비가 되었나요? 점진적 조사
강화 학습(RL)은 대규모 언어 모델 및 멀티모달 모델에서 효과가 입증된 바 있으며, 2D 이미지 생성 향상을 위해 성공적으로 확장되었습니다.
- · ai · - · -
[Paper] ClusIR: 클러스터 기반 올인원 이미지 복원
All-in-One Image Restoration (AiOIR)은 다양한 손상으로부터 고품질 이미지를 복구하는 것을 통합된 프레임워크 내에서 목표로 합니다. 그러나 기존 방법들은 종종 f...
- · ai · - · -
[Paper] AlcheMinT: 세밀한 시간적 제어를 통한 다중 레퍼런스 일관성 비디오 생성
대규모 diffusion 모델을 활용한 subject‑driven 비디오 생성의 최근 발전으로, 사용자 제공 주제에 조건화된 개인화된 콘텐츠 합성이 가능해졌습니다.
- · ai · - · -
[Paper] Mull-Tokens: 모달리티에 구애받지 않는 잠재적 사고
추론은 언어를 넘어선다; 현실 세계에서는 공간, 시간, 어포던스 등 단어만으로는 전달할 수 없는 많은 것들에 대한 추론이 필요하다. 기존의 멀티모…
- · ai · - · -
[Paper] OmniView: 3D 및 4D 뷰 합성을 위한 전지전능 Diffusion Model
카메라 제어를 diffusion 모델에 주입하는 기존 접근 방식은 4D 일관성 작업의 특정 하위 집합에 초점을 맞추었습니다: novel view synthesis, text-to-video …
- · ai · - · -
[Paper] 더 강력한 Normalization-Free Transformers
정규화 레이어는 오랫동안 딥러닝 아키텍처의 필수 구성 요소로 여겨져 왔지만, 최근 도입된 Dynamic Tanh (DyT) ha...
- · ai · - · -
[Paper] Any4D: 통합 피드포워드 메트릭 4D 재구성
우리는 Any4D를 소개한다. Any4D는 메트릭 스케일의 밀집 피드포워드 4D 재구성을 위한 확장 가능한 멀티뷰 트랜스포머이다. Any4D는 픽셀당 모션과 지오메트리를 직접 생성한다.
- · ai · - · -
Spoor의 조류 모니터링 AI 소프트웨어에 대한 관심이 급증하고 있다
Spoor의 computer vision software는 풍력 발전소와 기타 산업이 새 개체수와 이동 패턴을 추적하는 데 도움을 줄 수 있습니다....
- · ai · - · -
[논문] GAINS: Gaussian 기반 Inverse Rendering from Sparse Multi-View Captures
최근 Gaussian Splatting 기반 역렌더링의 발전은 Gaussian 프리미티브에 쉐이딩 파라미터와 물리적으로 기반한 라이트 트랜스포트(light transport)를 확장하여…
- · ai · - · -
[Paper] ReViSE: Self-Reflective Learning을 활용한 통합 모델에서 Reason-Informed 비디오 편집을 향하여
Video unified models는 이해와 생성에서 강력한 능력을 보여주지만, 추론 기반 시각 편집에는 장비가 갖추어져 있더라도 어려움을 겪는다.
- · ai · - · -
[Paper] Splatent: Novel View Synthesis를 위한 Diffusion Latents 스플래팅
Radiance field 표현은 최근 diffusion 모델에서 일반적으로 사용되는 VAE의 latent space에서 탐구되었습니다. 이 접근은 효율성을 제공합니다.
- · ai · - · -
[논문] LISN: 언어 지시형 사회적 내비게이션과 VLM 기반 컨트롤러 조정
human-robot coexistence를 향해, socially aware navigation은 mobile robots에게 중요합니다. 그러나 이 분야에 대한 기존 연구들은 주로 path efficiency에 초점을 맞추고 있습니다.
- · ai · - · -
[Paper] NordFKB: 노르웨이의 지리공간 AI를 위한 세분화된 벤치마크 데이터셋
우리는 노르웨이의 지리공간 AI를 위한 세밀한 벤치마크 데이터셋인 NordFKB를 제시한다. 이 데이터셋은 권위 있고 매우 정확한 국가 Felles KartdataBase에서 파생되었다.
- · ai · - · -
[Paper] VisualActBench: VLMs가 인간처럼 보고 행동할 수 있을까?
Vision-Language Models (VLMs)는 시각 환경을 인식하고 설명하는 데 있어 인상적인 진전을 이루었습니다. 그러나 그들의 능력은 능동적으로 추론하는 데…
- · ai · - · -
[Paper] YOPO-Nav: 원패스 비디오에서 3DGS 그래프를 이용한 시각적 내비게이션
Visual navigation은 상세한 매핑과 path planning에 의존하는 전통적인 robotic navigation pipelines에 대한 실용적인 대안으로 부상했습니다. 그러나 c...
- · ai · - · -
[Paper] 자율 항공기를 위한 시각적 헤딩 예측
무인 항공기(UAV)와 무인 지상 차량(UGV)의 통합은 지능형 자율 시스템 개발에 점점 더 중심적인 역할을 하고 있습니다.
- · ai · - · -
[Paper] PDF에서 수학 공식 추출을 위한 문서 파서 벤치마킹
PDF에서 수학 공식들을 정확하게 파싱하는 것은 large language models를 훈련하고 academic literature로부터 scientific knowledge bases를 구축하는 데 필수적입니다.
- · ai · - · -
[논문] Diffusion Posterior Sampler for Hyperspectral Unmixing with Spectral Variability Modeling
Linear spectral mixture models (LMM)은 구성 물질(endmembers)과 그에 해당하는 비율(abundance)을 분리하는 간결한 형태를 제공합니다.
- · ai · - · -
[Paper] MedForget: 계층 인식 멀티모달 언러닝 테스트베드 for Medical AI
사전 학습된 멀티모달 대형 언어 모델(MLLMs)은 임상 추론, 진단 지원 및 보고서 생성 등을 위해 의료 AI 시스템에 점점 더 많이 배치되고 있습니다.
- · software · - · -
GoCVKit 소개: Zero-Boilerplate 컴퓨터 비전 in Go
안녕, 동료 Gophers 여러분! Go에서 컴퓨터 비전을 다뤄본 적이 있다면, GoCV가 OpenCV의 강력함에 접근하기에 환상적이라는 걸 알 겁니다. 하지만 현실은? Boilerplate …
- · ai · - · -
[Paper] ChronosOmni: Omni 대형 언어 모델의 시간 인식 개선
시간 인식은 특히 긴 동영상을 이해하고 복잡한 질문에 답하는 데 있어 omni 대형 언어 모델의 기본적인 능력입니다. 이전 접근 방식은...
- · ai · - · -
RoboCrop: 로봇에게 토마토를 따는 방법을 가르치기
죄송합니다. 해당 기사나 요약 본문을 제공해 주시면 번역해 드리겠습니다.
- · ai · - · -
[Paper] SynthPix: 초고속 PIV 이미지 생성기
우리는 SynthPix, Particle Image Velocimetry (PIV)를 위한 합성 이미지 생성기를 소개한다. 이 시스템은 성능과 가속기에서의 병렬성에 중점을 두고 구현되었다.
- · ai · - · -
[Paper] 저지연 동공 검출을 위한 Neuromorphic Eye Tracking
웨어러블 시스템을 위한 Eye tracking은 낮은 지연 시간과 밀리와트 수준의 전력을 요구하지만, 기존의 프레임 기반 파이프라인은 모션 블러와 높은 연산량으로 어려움을 겪는다...
- · ai · - · -
[Paper] 엣지에서 프라이버시 강화 Vision Transformers를 위한 분산 프레임워크
요즘 visual intelligence tools는 어디에나 존재하게 되었으며, 모든 종류의 편리함과 가능성을 제공한다. 그러나 이러한 도구들은 높은 computational re...