[Paper] Scal3R: 대규모 3D 재구성을 위한 확장 가능한 테스트 시점 학습
이 논문은 긴 비디오 시퀀스로부터 대규모 3D 장면 재구성 작업을 다룹니다. 최근의 feed-forward reconstruction 모델들은 유망한 결과를 보여주었습니다.
이 논문은 긴 비디오 시퀀스로부터 대규모 3D 장면 재구성 작업을 다룹니다. 최근의 feed-forward reconstruction 모델들은 유망한 결과를 보여주었습니다.
Multimodal Mixture-of-Experts (MoE) 모델은 vision-language 작업에서 눈에 띄는 성능을 달성했습니다. 그러나 우리는 Seei…라는 당혹스러운 현상을 확인했습니다.
Text-to-Audio-Video (T2AV) 생성은 미디어 제작의 핵심 인터페이스로 빠르게 자리 잡고 있지만, 그 평가 방법은 여전히 파편화되어 있습니다. 기존 벤치마크는 …
Group Relative Policy Optimization (GRPO)은 최근 멀티모달 대형 언어 모델(Multimodal Large Language Models) 분야의 발전을 이끄는 사실상의 강화 학습(Reinforcement Learning, RL) 목표로 부상하고 있습니다.
Visual decoding from brain signals은 computer vision과 neuroscience의 교차점에서 핵심 과제이며, neural representation을 연결하는 방법을 필요로 합니다.
우리는 RewardFlow를 소개한다. 이는 사전 학습된 diffusion 및 flow-matching 모델을 추론 시에 다중 보상 Langevin dynamics를 통해 조정하는 inversion‑free 프레임워크이다.
Personal AI tools는 이제 natural-language 요청으로 생성될 수 있지만, 생성 후에도 종종 고립된 상태로 남아 있습니다. 우리는 공유 상태 아키텍처인 PSI를 제시합니다.
On-policy distillation (OPD)은 강력한 교사로부터의 감독을 활용하면서 학생 모델을 자체 유도 분포 하에서 학습시킵니다. 우리는 실패를 식별한다…
Google의 최신 Gemini 업그레이드로 챗봇이 질문에 대한 응답으로 인터랙티브 3D 모델 및 시뮬레이션을 생성할 수 있게 됩니다. 새로운 기능으로, ...
오늘날의 large language models (LLMs)은 reinforcement learning과 같은 방법을 통해 사용자 선호에 맞추도록 훈련됩니다. 그러나 모델들은 점점 d...
스티어링 벡터를 대형 언어 모델(LLMs)에 적용하는 것은 효율적이고 효과적인 모델 정렬 기술이지만, 이에 대한 해석 가능한 설명이 부족합니다…
AI 에이전트는 당신의 받은편지함을 자동화할 수 있을지도 모르지만, 삶의 다른 일상적인 측면을 자동화할 수 있을까요? 매일의 온라인 작업은 현실적이면서도 아직 해결되지 않은 테스트를 제공합니다.
대형 언어 모델(LLMs)은 매개변수에 사실 지식을 기억하는 데 어려움을 겪을 수 있으며, 이는 종종 환각을 일으키고 지식‑
대규모 언어 모델(LLMs)은 놀라울 정도로 복잡한 작업을 수행할 수 있지만, 이러한 능력이 사전 학습 중에 어떻게 나타나는지에 대한 세밀한 세부 사항은 여전히 충분히 이해되지 않고 있다.
우리는 최근 Kleinberg와 Mullinathan [KM24]가 도입한 모델인 language generation in the limit를, differentia의 제약 하에서 연구를 시작한다.
과학은 현재 quality assurance에 대해 두 가지 옵션을 제공하지만, 둘 다 충분하지 않다. Journal gatekeeping은 integrity와 contribution을 모두 검증한다고 주장하지만 실제로는 …
Prompt injection attacks는 실제 응용 분야 전반에 걸쳐 심각한 보안 위험을 초래합니다. 점점 더 많은 관심을 받고 있지만, 커뮤니티는 …
이전 연구에 따르면, 신경망 기반 노드 임베딩은 동일한 파라미터로 같은 데이터셋을 학습시켜도 서로 다른 결과를 반환한다는 것이 입증되었다, ju...
검증 가능한 보상을 이용한 강화 학습(RLVR)은 수학과 같은 형식적 영역에서 대형 언어 모델(LLM)의 추론 능력을 크게 향상시켰다…
Federated learning (FL)은 분산된 항공우주 함대 전반에 걸쳐 프라이버시를 보호하는 예측 유지보수를 가능하게 하지만, gradient communication overhead가 제약을 가한다.
Topological Data Analysis (TDA)는 데이터의 형태를 설명하는 도구를 제공하지만, 위상학적 특징을 딥러닝 파이프라인에 통합하는 것은 여전히 도전 과제이다.
검증 가능한 보상을 이용한 강화 학습(RLVR)으로 구동되는 대규모 추론 모델(LRMs)에서 상당한 진전이 있었음에도 불구하고, 이 패러다임은 근본적으로 …
Google의 AI Edge Gallery 앱이 이제 Google Play 스토어에 정식으로 출시되었습니다.
Symbolic regression (SR)은 데이터에서 수학적 표현식을 발견하는 것을 목표로 하며, 이 작업은 전통적으로 조합적 …을 통해 Genetic Programming (GP)으로 해결됩니다.
Dock 기반 bike-sharing 시스템은 자전거 공급과 이용자 수요 사이에 공간적 불균형을 보이며, 이는 종종 야간 트럭 기반 재배치를 통해 해결됩니다. Th...
극한 엣지 애플리케이션을 위해, 이산 시간 신호에서 event detection 및 classification을 위한 단 몇십 개의 artificial neurons으로 구성된 최소 네트워크.
끈기와 신념, 반란의 영원한 이야기가 중심 무대로 떠오르며, Samson: A Tyndalston Story가 GeForce NOW에 합류합니다 https://www.nvidia.com/en-us/geforce-now/ li...
훈련 중 State‑Space Models 압축 훈련 대규모 인공지능 모델은 비용이 많이 듭니다—달러뿐만 아니라 시간, 에너지, 그리고 …
벤치마크 문제는 최적화 알고리즘에 대한 이해를 높이는 중요한 도구입니다. 알고리즘은 종종 벤치마크에서 좋은 성능을 목표로 하기 때문에, 편향 …
텍스트-투-이미지 생성은 기본 diffusion 모델을 중심으로 여러 모델을 포함하는 diffusion 워크플로우를 실행합니다. 기존 서빙 시스템은 각 워크플로우를 …
이 논문은 내부 Gaussian noise가 깊은 feedforward 신경망의 성능에 미치는 영향을 조사하며, noise injection의 역할에 초점을 맞춘다.
우리는 고전적인 Multi-Armed Bandit 설정을 고려하여 다양한 탐색 휴리스틱이 만드는 탐색/활용(tradeoffs)을 이해한다. 많은 탐색 h...
Meta가 최근 Muse Spark를 출시했으며, 이는 1년 만에 발표된 첫 주요 모델이다. 벤치마크 결과는 Claude Opus 4.6 및 GPT 5.4와 경쟁력이 있음을 보여주지만, 그것이 전부는 아니다…
개요: YouTube Shorts가 새로운 AI‑powered 기능을 롤아웃하여 크리에이터가 카메라에서 자신을 사실적으로 복제할 수 있는 쉬운 방법을 제공합니다. 출시가 암시되었습니다.
프롬프트 혼돈 1년 동안 나는 LLM을 명령줄처럼 다뤘다: 명령을 입력하고, 출력이 나오길 기도하고, 문구를 다듬고, “IMPORTANT:”를 추가하고, 문장을 여기저기로 옮기듯이.
에이전트는 LLM 기반 컴포넌트로, 강력하고 임의적인 방식으로 환경을 변형시킬 수 있습니다. 프로덕션 환경에서 에이전트 실행에 대한 보장을 추출하는 것은…
메타가 새로운 AI 모델 ‘뮤즈 스파크Muse Spark’를 공개했다. 지난해 수조 원 규모의 AI 조직 개편과 인재 영입 이후 처음 선보이는 결과물이다. 뮤즈 스파크는 무엇이며, 왜 주목받고, 어떤 평가를 받고 있는지 살펴본다. 뮤즈 스파크, 어떤 모델인가 뮤즈 스파크는 메타의 새 A...
시공간 신경 역학 및 진동 동기화는 생물학적 정보 처리에 널리 관여하며 이를 지원하는 것으로 가설이 제시되어 왔습니다.
NP-난이도 조합 최적화 문제, 예를 들어 차량 경로 문제(VRP)와 같은 고성능 메타휴리스틱을 설계하는 것은 여전히 중요한 도전입니다.
TL;DR - Google은 Gemini에 Notebooks를 추가하고 있습니다.
개요: Meta가 방금 Muse Spark를 출시했습니다. 이는 Llama 4 이후 처음으로 공개된 새로운 모델로, 이전 출시 이후 약 1년 만에 나왔습니다. Benchmarks는 이를 ...와 나란히 배치합니다.
2026년 3월 31일
대형 언어 모델(LLMs)은 특정 시점에 학습되어 고정된 지식을 가지고 있습니다. 소프트웨어 엔지니어링 실무는 빠르게 변화하고 자주 바뀌며, ...
!https://cdn-avatars.huggingface.co/v1/production/uploads/620760a26e3b7210c2ff1943/-s1gyJfvbE1RgO5iBeNOi.png Qwen/Qwen3-Reranker-0.6B - 작업: 텍스트 랭킹 - Par...
Transformer의 Self-attention은 동적인 피연산자를 생성하여 기존 Compute-in-Memory (CIM) 가속기를 비용이 많이 드는 비휘발성 메모리(NVM)로 강제합니다.
요약: 1min.AI https://zdcs.link/QrJgj1?pageview_type=Standard&template=article&module=content_body&element=offer&item=text-link&element_label=1min.AI&object_typ...
산업 예측은 종종 다중 소스 비동기 신호와 다중 출력 목표를 포함하고, 배포에서는 예측 사이의 명시적인 트레이드오프가 필요합니다.
각 단어에 대한 Positional Encoding 이전 기사에서 우리는 sine 및 cosine 파를 사용하여 Positional Encoding이 생성되는 방식을 살펴보았습니다. 위치 값을 할당하기 위해...