[Paper] IVGT: 암시적 시각 기하학 트랜스포머 for Neural Scene Representation
포즈가 지정되지 않은 다중 뷰 이미지에서 일관된 3D 기하학 및 외관을 재구성하는 것은 컴퓨터 비전에서 기본적이면서도 도전적인 문제입니다. 대부분의 기존 vis...
포즈가 지정되지 않은 다중 뷰 이미지에서 일관된 3D 기하학 및 외관을 재구성하는 것은 컴퓨터 비전에서 기본적이면서도 도전적인 문제입니다. 대부분의 기존 vis...
수십억 파라미터 Vision-Language-Action (VLA) 정책은 최근 로봇 조작에서 인상적인 성능을 보여주었지만, 그 크기와 추론 비용은 …
감염병에 대한 Probabilistic forecasting은 공중보건에 필수적이지만, 전문가 모델링 팀이 수행하는 labor‑intensive manual model curation에 의존합니다. This...
연구자들이 두 transformer 레이어가 압축을 위해 ‘equivalent’한지 여부를 물을 때, 그들은 종종 서로 다른 테스트들을 혼동한다. Replacement는 한 레이어의 m…
Magnetic order는 재료의 기본적인 특성으로, 집합적 행동을 지배하고 광범위한 기능을 가능하게 합니다. 그러나 magnetic structure는 …
차등 프라이버시(Differential privacy)는 CVaR 학습을 지배하는 유효 샘플 크기를 변경합니다. 꼬리 질량 τ에 대해, 프라이버시와 관련된 샘플 크기는 n이 아니라 nτ이며, 동등하게…
임상 의사결정 지원 시스템(CDSS)은 엄격하고 재현 가능한 검증을 가능하게 하는 검증 가능하고 감사 가능한 파이프라인을 필요로 합니다. 그러나 현재 LLM 기반 CDSS는 여전히...
전통적인 과학 모델링은 일반적으로 고정된 사례별 유효 방정식으로 시작한 뒤, 방정식별 분석 및 계산을 수행한다.
Second-order methods는 더 샘플 효율적인 LLM 훈련을 위한 매력적인 경로를 제공하지만, 실제 사용은 종종 유지 관리의 시스템 비용에 의해 차단됩니다.
글로벌 사우스의 농업 경관 세분화는 파편화된 구획, 높은 클래스 내 변동성, 그리고 ...의 부족으로 인해 어려운 과제입니다.
Few-shot Generalist Anomaly Detection은 모델이 재학습 없이 새로운 카테고리로 일반화하도록 요구하며, 실제 상황에서 상당한 도전을 제기합니다.
Autoregressive next-token training은 이미지 생성과 텍스트 이해를 위한 통합된 공식화를 제공하지만, 강력한 모달리티 경쟁을 초래하기도 합니다.
Vision Transformers (ViTs)는 특징 맵 품질을 저하시키는 고노름 패치‑토큰 이상치를 나타내는 것으로 알려져 있으며, 이 문제는 register token을 사용하여 효과적으로 완화됩니다.
작업 지시문으로부터 시뮬레이션 준비가 된 테이블탑 씬을 생성하는 것은 Embodied AI 분야에서 흥미롭고 유망한 연구 방향이다. 그러나, ...
Technical Debt (TD)는 개발자가 품질 향상 작업보다 단기적인 전달을 우선시할 때 발생하는 장기적인 비용을 의미합니다. Architectural Technical D...
멀티모달 3D 시맨틱 점유 예측은 일반적으로 카메라와 LiDAR 입력을 융합하여 견고성을 향상시키지만, 그 효과는 근본적으로 제한됩니다.
확산 기반 이미지 합성은 AI 생성 이미지(AIGI)를 점점 더 사진처럼 사실적으로 만들었으며, 이는 다양한 응용 분야에서 진위성에 대한 긴급한 우려를 불러일으키고 있습니다.
우리는 clockless (asynchronous) 디지털 시스템의 자율적인 연속 시간 진화에서 나타나는 spiking dynamics를 기반으로 하는 확장 가능한 neuromorphic 아키텍처를 제안한다.
연합 학습(Federated learning, FL)은 분산된 특성 때문에 데이터 중독 공격에 취약합니다. 최근의 GAN 기반 데이터 중독 방법들은 이를 나타냈습니다.
빅 데이터 시대에 대규모 데이터셋을 효과적으로 압축하면서 복잡한 수학 연산을 수행하는 것은 매우 중요합니다. Tensor 기반 분해 방법 h...
Semantic code search는 학계와 산업계 모두에서 널리 채택되었습니다. 이러한 접근 방식은 natural-language queries와 code snippets를 shared embedding에 임베드합니다.
우리는 thermodynamic networks를 소개한다. 이는 비평형 정상 상태를 이용한 자율적이고 physics-based computation을 위한 일반적인 프레임워크이다. 이러한 네트워크는 model…
코딩 에이전트는 실제 소프트웨어 개발 현장에 점점 더 많이 배치되고 있습니다. 하나의 버전 반복(iteration)에는 수많은 파일에 걸친 수개월 간의 협업이 필요합니다. 이러한 복잡한 작업 흐름 속에서 코딩 에이전트는 코드 생성, 디버깅, 테스트, 문서화 등 다양한 역할을 수행하며 개발 속도를 크게 향상시킬 수 있습니다. 그러나 현재 대부분의 에이전트는 제한된 컨텍스트와 단일 파일 수준에서만 작동하므로, 대규모 프로젝트 전반에 걸친 일관된 변경을 관리하는 데 한계가 있습니다. 이를 해결하기 위해서는 에이전트가 전체 코드베이스를 이해하고, 여러 파일 간의 의존성을 파악하며, 장기적인 목표와 일정에 맞춰 조정될 수 있는 고도화된 협업 메커니즘이 필요합니다. 또한, 인간 개발자와 에이전트 간의 원활한 소통을 위한 인터페이스 설계와, 자동화된 검증 및 피드백 루프를 구축함으로써 품질을 유지하면서도 빠른 반복을 가능하게 해야 합니다. 이러한 접근은 궁극적으로 소프트웨어 개발 프로세스의 효율성을 극대화하고, 복잡한 시스템을 보다 신속하고 안정적으로 배포할 수 있게 할 것입니다.
인간은 경험을 구조화된 표현으로 추상화하여 패턴 추론과 지식 전이를 용이하게 합니다. 해마-내후각 피질 (hippocampal-entorhinal, HPC-MEC) c...
최근 일반화 가능한 병렬 알고리즘 포트폴리오(PAPs)를 구축하는 데 진전이 있었음에도 불구하고, 아직 다목적 bin…에 대한 범용 접근법은 제공되지 않고 있다.
이 입장문은 머신러닝 커뮤니티가 현재의 관행보다 주석 파이프라인의 초기 단계 품질 보증을 우선시해야 한다고 주장한다.
서버리스 컴퓨팅은 엣지 컴퓨팅을 위한 유망한 컴퓨팅 패러다임으로 부상했습니다. 그러나 매우 동적이고 이질적인 환경에서 이벤트 기반 모델을 채택하는 데에는 어려움이 있습니다.
효과적인 surrogates (performance predictors)를 개발하기 위해서는 Neural Architecture Search (NAS)에서 일반적으로 비용이 많이 드는 fine‑tuning이나 복잡한 엔지니어링이 필요합니다.
Edge machine learning은 cloud-scale model deployment에서 경험하지 못한 고유한 제약 조건을 제시합니다: strict memory budgets, limited compute, 그리고 non-nego…
하이퍼스케일러가 보고한 무음 데이터 손상(SDCs)은 실리콘 제조 결함으로 인한 것으로 추정되며, 이는 기능 테스트 개발을 촉진시켰다.
Quantum 프로그램은 결정론적 출력보다 확률 분포를 생성하는 경우가 많아 검증이 본질적으로 통계적이며 점점 더 비용이 많이 듭니다…
표준 딥러닝 파이프라인은 일반적으로 훈련 전에 네트워크 아키텍처를 선택하고 최적화 내내 이를 고정된 상태로 유지합니다. 반면에, 모델은 또한 ...
양자 알고리즘의 고전 시뮬레이션은 회로 개발, 테스트 및 검증을 위한 중요한 도구입니다. GPU를 이용한 가속은 상당히 ...
이 논문은 호주 원주민의 멸종 위기에 처한 언어인 워다만을 전사하고 번역할 수 있는 초기 language model system인 WARDEN을 소개한다.
밸리언의 1984년 논문은 PAC 학습 모델을 도입한 것으로 널리 알려져 있지만, 실제로는 다른 모델을 소개했습니다. PAC 학습과 달리, 학습자는…
Video-guided 3D animation은 콘텐츠 제작에 막대한 잠재력을 가지고 있으며, 동적 자산에 대한 직관적이고 정밀한 제어를 제공합니다. 그러나 실용적인 배포...
본 논문에서는 함수 공간 관점에서 기하학적 메쉬 위의 물리적 장 방정식의 해 연산자를 연구합니다. 우리는 Hodge orthogonality를 밝혀냅니다.
클래스-증분 학습(Class-Incremental Learning, CIL)은 모델이 새로운 지식을 지속적으로 통합하면서 재앙적 망각을 완화하도록 합니다. 놀라운 gener...
시퀀스 데이터에서 장거리 의존성을 모델링하는 것은 머신러닝에서 여전히 핵심 과제이다. Transformers는 attention mechanism을 통해 이 과제를 해결한다.
Long-context modeling은 현대 대형 비전-언어 모델(LVLMs)의 핵심 역량이 되고 있으며, 장문 문서에 걸친 지속적인 컨텍스트 관리를 가능하게 합니다.
Decision tree ensembles (DTE)는 다양한 AI 분류 작업에 널리 사용되는 인기 모델이며, 여러 안전‑critical 분야에서 활용되고 있기 때문에, 검증…
우리는 Negation Neglect를 소개한다. 이는 주장(claim)을 거짓으로 표시하는 문서에 대해 LLM을 미세조정(fineting)하면, 모델이 그 주장을 사실이라고 믿게 만드는 현상이다. 예를 들어, 모델을 미세조정하여…
Scientific machine learning은 예측 성능을 보고합니다. 동일한 예측이 다른 훈련 데이터 샘플에서도 유지되는지는 보고하지 않습니다. Acro...
자연어 소프트웨어 요구사항은 종종 모호하고, 일관성이 없으며, 명세가 부족합니다; 안전이 중요한 도메인에서는 이러한 결함이 정형 mo...
Digital phenotyping은 행동과 생리학을 지속적으로 수동적으로 모니터링할 수 있게 하여, psychotic relapse를 조기에 감지하기 위한 유망한 패러다임을 제공합니다. In...
LiDAR scene generation은 확장 가능한 시뮬레이션 및 합성 데이터 생성에 점점 더 중요해지고 있으며, 특히 비용이 많이 드는 다양한 센싱 조건 하에서 중요합니다.
Cross-modal 3D 의료 영상 분석은 영상 대비, 스캐너 및 획득 전반에 걸쳐 해부학적으로 일관된 voxelwise 표현을 필요로 합니다.
우리는 MindLab Toolkit (MinT)을 소개한다. 이는 Low-Rank Adaptation (LoRA) 사후 학습 및 온라인 서빙을 위한 관리형 인프라 시스템이다. MinT는 … 와 같은 상황을 목표로 한다.