computer-vision — Page 23

정렬:

2개월 전 · ai · - · -

[Paper] 네이티브 및 콤팩트 구조화된 Latents for 3D Generation

최근 3D 생성 모델링의 발전으로 생성 현실감이 크게 향상되었지만, 이 분야는 여전히 기존 표현 방식에 의해 제약을 받고 있습니다, w...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] MMGR: 멀티모달 생성적 추론

비디오 파운데이션 모델은 시각적으로 현실적이고 시간적으로 일관된 콘텐츠를 생성하지만, world simulators로서의 신뢰성은 그것들이 p를 포착하는지 여부에 달려 있습니다.

#research #paper #ai #nlp #computer-vision
2개월 전 · ai · - · -

[Paper] VASA-3D: 단일 이미지에서 생성된 실감 나는 Audio-Driven Gaussian Head Avatars

우리는 VASA-3D, audio‑driven, single‑shot 3D head avatar generator를 제안한다. 이 연구는 두 가지 주요 과제에 도전한다: 미묘한 표정 디테일을 포착하는 것.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] ART: 관절형 재구성 트랜스포머

우리는 ART, Articulated Reconstruction Transformer를 소개한다 — category-agnostic, feed-forward 모델로, 단지 …만으로 완전한 3D 관절형 객체를 복원한다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] EVOLVE-VLA: Vision‑Language‑Action 모델을 위한 환경 피드백 기반 테스트 시 훈련

진정으로 적응적인 embodied intelligence를 달성하려면, 정적인 static demonstrations만을 모방하는 것이 아니라 environment를 통해 지속적으로 개선하는 agents가 필요합니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] Visual Sentiment Analysis 향상을 위한 Semiotic Isotopy 기반 Dataset Construction

Visual Sentiment Analysis (VSA)는 감정적으로 두드러지는 이미지들의 방대한 다양성과 충분한 데이터를 확보하는 데 내재된 어려움 때문에 도전적인 작업입니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 다기관 벤치마크: HE‑염색 전 슬라이드 이미지에서 림프종 아형 구분을 위한 Multiple Instance Learning 모델

시기적절하고 정확한 림프종 진단은 암 치료를 안내하는 데 필수적입니다. 표준 진단 관행은 hematoxylin and eosin (HE) 염색된 전체...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] JMMMU-Pro: 이미지 기반 일본어 다학문 다중모달 이해 벤치마크 via Vibe Benchmark Construction

이 논문은 이미지 기반 일본어 다학문 다중모달 이해 벤치마크인 JMMMU‑Pro와 확장 가능한 Vibe Benchmark Construction을 소개한다, ...

#research #paper #ai #machine-learning #nlp #computer-vision
2개월 전 · software · - · -

alpr.watch

번역하려는 텍스트를 제공해 주시겠어요? 해당 기사나 댓글의 내용을 직접 복사해서 알려주시면 한국어로 번역해 드리겠습니다.

#license-plate-recognition #computer-vision #open-source #ALPR #surveillance-tool
2개월 전 · ai · - · -

Ai2의 Molmo 2, 오픈소스 모델이 비디오 이해에서 독점 거대 기업과 경쟁할 수 있음을 보여줍니다

최근 Olmo 기반 모델 최신 버전을 출시한 직후, Allen Institute for AI(Ai2)는 화요일에 오픈소스 비디오 모델인 Molmo 2를 출시했습니다, …

#Molmo 2 #video understanding #open-source AI #Allen Institute for AI #foundation models #computer vision
2개월 전 · ai · - · -

AlphaFlow: MeanFlow 모델 이해 및 개선

AlphaFlow는 MeanFlow 이미지 모델에 대해 보다 부드러운 학습 스케줄을 제공하여 두 목표 간의 충돌을 줄이고 학습을 가속화합니다. 개요...

#MeanFlow #AlphaFlow #image generation #training optimization #deep learning #computer vision
2개월 전 · ai · - · -

[Paper] DiffusionBrowser: 인터랙티브 디퓨전 프리뷰 via Multi-Branch Decoders

비디오 디퓨전 모델은 생성 비디오 합성에 혁신을 가져왔지만, 정확도가 떨어지고 느리며 생성 과정에서 불투명할 수 있어 사용자를 …

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] LitePT: 더 가볍고 더 강력한 Point Transformer

3D 포인트 클라우드 처리를 위한 최신 신경 아키텍처는 convolutional layers와 attention blocks를 모두 포함하지만, 이를 조합하는 최적의 방법은 아직 명확하지 않다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 확장 가능한 Visual Tokenizers 사전 학습을 향해

시각 토크나이저(예: VAEs)의 latent space 품질은 현대 generative models에 매우 중요합니다. 그러나 표준 reconstruction-based training은 …

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 순환 비디오 Masked Autoencoders

우리는 Recurrent Video Masked‑Autoencoders (RVM)을 제시한다: 트랜스포머 기반 순환 신경망을 활용한 새로운 비디오 표현 학습 접근법이다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] I-Scene: 3D 인스턴스 모델은 암시적 일반화 가능한 공간 학습자

Generalization은 인터랙티브 3D scene 생성에서 여전히 핵심 과제입니다. 기존 학습 기반 접근 방식은 제한된 sce...

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] LASER: 학습 없이 스트리밍 4D 재구성을 위한 계층별 스케일 정렬

최근 feed-forward reconstruction 모델인 VGGT와 π^3는 인상적인 재구성 품질을 달성하지만, quadratic memory 때문에 스트리밍 비디오를 처리할 수 없습니다.

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 텍스트-스티어러블 이미지-투-3D를 통한 피드포워드 3D 편집

최근 이미지‑투‑3D 분야의 진전은 디자인, AR/VR, 로보틱스에 엄청난 가능성을 열어주었습니다. 그러나 실제 애플리케이션에서 AI가 생성한 3D 자산을 사용하려면,…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] JoVA: 통합 멀티모달 학습을 통한 동시 비디오‑오디오 생성

본 논문에서는 JoVA라는 통합 프레임워크를 제시하여 비디오‑오디오 공동 생성을 수행합니다. 최근의 고무적인 진전에도 불구하고, 기존 방법들은 두 가지 중요한 제한에 직면합니다…

#research #paper #ai #computer-vision
2개월 전 · ai · - · -

[Paper] 디지털 휴먼을 위한 인터랙티브 인텔리전스

우리는 인터랙티브 인텔리전스(Interactive Intelligence)를 소개한다. 이는 성격에 맞춘 표현, 적응형 상호작용, 그리고 자기 진화가 가능한 새로운 디지털 휴먼 패러다임이다.

#research #paper #ai #nlp #computer-vision
2개월 전 · ai · - · -

[Paper] 개인화 텍스트-이미지 생성을 위한 방향성 Textual Inversion

Textual Inversion (TI)은 텍스트-이미지 개인화에 효율적인 접근 방식이지만 복잡한 프롬프트에서는 종종 실패합니다. 우리는 이러한 실패를 임베딩 노름 i...

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] World Models는 Human Videos를 활용해 Dexterous Manipulation을 수행할 수 있다

Dexterous manipulation은 섬세한 hand motion이 물체와의 contact을 통해 environment에 미치는 영향을 이해해야 하기 때문에 어려운 과제입니다. We intro…

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] 코드에서 현장으로: 망고 잎 질병 진단을 위한 Convolutional Neural Networks의 견고성 평가

인공지능(AI) 모델의 검증 및 확인을 견고성 평가를 통해 수행하는 것은 통합 시스템의 신뢰할 수 있는 성능을 보장하는 데 필수적입니다.

#research #paper #ai #machine-learning #computer-vision
2개월 전 · ai · - · -

[Paper] Do-Undo: Vision-Language Models에서 물리적 행동 생성 및 역전

우리는 vision-language 모델에서 중요한 격차인 물리적으로 타당한 장면 변환을 이해하고 생성하는 문제를 해결하기 위해 Do-Undo 작업과 벤치마크를 소개합니다.

#research #paper #ai #machine-learning #computer-vision

Newer posts

Older posts