[Paper] DVD: 생성 사전이 적용된 결정론적 비디오 깊이 추정
기존 비디오 깊이 추정은 근본적인 트레이드오프에 직면합니다: 생성 모델은 확률적 기하학적 환각과 스케일 드리프트에 시달리는 반면, discrimi...
4526 posts from this source
기존 비디오 깊이 추정은 근본적인 트레이드오프에 직면합니다: 생성 모델은 확률적 기하학적 환각과 스케일 드리프트에 시달리는 반면, discrimi...
과학적 멀티모달 문서 추론 데이터셋을 구축하는 것은 foundation model 훈련을 위해 규모(scale), 충실도(faithfulness), 현실성(realism) 사이의 내재된 트레이드오프를 포함한다.
Cross-entropy (CE) 훈련은 언어 모델에 대해 밀도 높고 확장 가능한 감독을 제공하지만, 교사 강제(teacher forcing) 하에서 다음 토큰 예측을 최적화할 뿐이다.
추론 LLMs-as-Judges는 inference-time scaling의 혜택을 받을 수 있으며, 추론 모델의 성공을 non‑verifiable 분야에 확장하는 유망한 경로를 제공합니다.
물리학, 언어 및 지각 전반에 걸친 지능 시스템은 종종 factorisable structure를 보이지만, 일반적으로는 monolithic neural architectures로 모델링됩니다 ...
우리는 STAMP (Selective Task-Aware Mechanism for Text Privacy)를 제시한다. 이는 향상된 프라이버시‑유틸리티를 달성하는 새로운 task‑aware 텍스트 프라이버타이제이션 프레임워크이다.
Neural network verification은 종종 더 큰 분석 절차의 핵심 구성 요소로 사용되며, 이 절차는 밀접하게 관련된 verification query들의 연속을 생성한다.
좋은 표현을 학습하는 것은 world models를 활용한 latent planning에 필수적입니다. pretrained visual encoders는 강력한 semantic visual features를 생성하지만, 그들은...
이 기사(Perplexity가 NIST/CAISI의 2025-0035 정보 요청에 대한 답변을 약간 수정한 버전)는 우리의 관찰과 권고 사항을 자세히 다룹니다.
프리트레이닝은 일반적으로 추가적인 반복 적응을 위한 시작점으로 간주되는 학습된 파라미터 벡터를 생성합니다. 이 작업에서 우리는 대신에 …
학제간 연구가 더 크고 장기적인 영향을 가져오지만, 대부분의 연구는 여전히 단일 분야 학술 사일로에 국한되어 있습니다. 최근 AI 기반 접근법...
수십 년 전에는 슈퍼컴퓨터에서만 사용할 수 있었던 컴퓨팅 파워, 특히 그들의 parallelism이 현재는 표준 personal computer에서도 이용 가능합니다.
원격 감지 이미지에서의 Salient object detection (SOD)은 객체 크기의 큰 변동과 self-att의 계산 비용 등으로 인해 상당한 도전에 직면하고 있다.
이 연구는 분산 데이터 파이프라인(또는 워크플로)의 자동화된 계획 및 스케줄링을 추구합니다. 우리는 일반적인 워크플로와 리소스 그래프 표현을 개발합니다.
Long-context agentic workflows는 대형 언어 모델의 정의적인 사용 사례로 부상했으며, attention efficiency는 추론 속도와 …에 있어 중요합니다.
디코더 전용 Large Language Models(LLMs)이 최근 NLP 분야를 장악하고 있는 반면, 인코더 전용 아키텍처는 비용 효율적이고 파라미터 효율적인…
멀티모달 에이전트는 복잡한 문서 중심 워크플로우를 자동화하는 유망한 경로를 제공합니다. 그러나 여전히 중요한 질문이 남아 있습니다: 이러한 에이전트가 genui...
Synthetic data는 코드 생성 모델을 훈련시키는 데 필수적이 되었지만, 감지하기 어려운 상당한 noise와 hallucinations을 도입합니다…
대규모 언어 모델(LLMs)의 급속한 발전은 범용 AI 어시스턴트에 대한 진전을 가속화했습니다. 그러나 기존의 개인화된 어시스턴트에 대한 벤치마크는...
다양한 HPC 사이트에 걸쳐 복잡하고 분산된 과학 워크플로를 배포하는 것은 종종 사이트별 종속성 및 복잡한 빌드 환경 때문에 방해받습니다. Thi...
Deep Operator Networks (DeepONets)는 함수 공간 사이에서 작용하는 비선형 연산자를 근사하기 위한 branch‑trunk 신경망 구조를 제공합니다. In the class...
Spiking Neural Networks (SNNs)는 낮은 전력 소비와 계산 효율성 때문에 엣지 컴퓨팅에서 큰 주목을 받고 있습니다. 그러나, exi...
요구사항 공학(Requirements engineering, RE)은 소프트웨어 성공에 필수적이지만, 자동화는 여전히 어려운 과제입니다. 왜냐하면 여러 가지, 종종 상충되는 품질 속성을 만족시켜야 하기 때문입니다...
AI agents가 의료 및 law enforcement와 같은 high‑stakes domains에서 점점 더 많이 사용됨에 따라, 그들의 행동을 social, legal, ethical, empathetic …와 일치시키는 것이 중요해지고 있다.
State Machine Replication (SMR)에서 리더 기반 프로토콜의 경우, 리더의 송신 대역폭이 자연스러운 처리량 병목 현상이 됩니다. Erasure coding은 이를 완화할 수 있습니다.
비록 스파이킹 뉴럴 네트워크(SNN)의 temporal spike dynamics가 low‑power temporal pattern capture capabilities를 가능하게 하지만, 이들은 또한 내재된 불일치를 초래한다.
우리는 서브타임(subtime)이라는 개념을 형식화한다—얽힌 시스템 내에서 정보 교환이 가역적으로 이루어지는 방식—그리고 고전적 시간(classical time)이 비대칭적으로 나타나는 방식을 보여준다.
이 연구는 quantization-based optimization algorithms를 분석하기 위한 quantum mechanical framework를 제시한다. quantization-based search의 sampling process는 …
NCCL은 대규모 분산 학습에서 집합 GPU 통신의 사실상 표준이며, 런타임 동작을 맞춤화하기 위해 플러그인에 크게 의존합니다. Ho...
코드 저장소의 이슈를 해결하는 것은 소프트웨어 엔지니어링에서 중요한 부분입니다. 다양한 최신 시스템은 대형 언어 모델을 사용하여 이슈를 자동으로 해결합니다…
RTL 생성은 단순한 소프트웨어 코드 합성보다 더 많은 것을 요구합니다: 설계는 구문적으로 유효하고, synthesizable하며, 기능적으로 정확하고, hardware-efficient해야 합니다. Exis...
Automated Program Repair (APR)은 개발자가 디버깅에 소비하는 시간을 줄여 주어, 소프트웨어 개발의 다른 측면에 집중할 수 있게 합니다. Automatically ge...
코드 LLM은 특히 작은 모델에서 코드 실행 추론에 여전히 어려움을 겪고 있습니다. 기존 방법은 교사 생성(supervised fine-tuning, SFT)을 기반으로 합니다.
비디오 이벤트와 시간적으로 일치하는 음악을 생성하는 것은 기존 텍스트-투-뮤직 모델들에 있어 어려운 과제이며, 이 모델들은 세밀한 temporal control이 부족합니다. 우리는 ...
LLM-as-a-judge 패러다임은 중요한 가정에 의존한다. 즉, 높은 inter-evaluator agreement가 신뢰할 수 있고 객관적인 평가를 의미한다는 것이다. 우리는 …
대형 언어 모델(LLMs)을 기반으로 한 의사 관련성 피드백(Pseudo-relevance feedback, PRF) 방법은 두 가지 핵심 설계 차원에 따라 조직될 수 있다: 피드백 소스는 …
인간 향상 연구 – 또는 AI가 인간 성과에 미치는 영향을 현 상태와 비교하여 측정하는 연구로, 일반적으로 무작위 대조 실험(RCT) 방법을 사용합니다.
최근 텍스트‑투‑이미지 (T2I) 생성 분야의 발전으로 시각적 품질이 크게 향상되었지만, 실제 사진처럼 시각적으로 진짜 같은 이미지를 생성하는 것은 여전히 어려운 문제입니다.
우리는 MLP 레이어가 transformer 언어 모델에서 continuous signals를 binary routing한다는 것을 보여준다: 토큰이 nonlinear processing이 필요한지 여부에 대한 결정.
양자 컴퓨터는 무차별적인 고전적 접근법을 넘어 양자 시스템을 시뮬레이션하는 데 유용성을 입증했습니다. 커뮤니티가 이러한 시연을 기반으로…
Quantum computers는 brute‑force classical approaches를 넘어 quantum systems를 시뮬레이션하는 데 유용성을 입증했습니다. 커뮤니티가 이러한 demonstratio를 기반으로 구축함에 따라…
그들의 능력이 향상됨에 따라, Large Language Models (LLMs)은 이제 많은 산업 분야에서 사용되고 있습니다. 이들은 소프트웨어 엔지니어와 s...
Simulation-based testing은 실제 환경에 배치하기 전에 autonomous driving agents를 검증하는 표준적인 접근 방식이 되었습니다. 고품질 validation campaign…
LLM 기반 텍스트 임베더는 일반적으로 입력의 의미적 내용을 인코딩합니다. 그러나 임베딩 작업은 다양한 입력을 유사한 출력으로 매핑해야 합니다. 전형적으로...
GLM-OCR은 실제 문서 이해를 위해 설계된 효율적인 0.9B-parameter 컴팩트 멀티모달 모델입니다. 이는 0.4B-parameter CogViT 비주얼 인코더를 결합하여 ...
Knowledge distillation (KD) 방법은 대규모 사전 학습 언어 모델을 더 작은 모델로 압축하는 데 핵심적이며, 계산 효율성을 유지하면서 ...
SiDiaC‑v.2.0은 현재까지 가장 방대한 포괄적인 Sinhala Diachronic Corpus로, 출판 연도 기준으로 1800 CE부터 1955 CE까지의 기간을 포괄하며, 그리고…
서버리스 플랫폼에서의 정보 흐름은 복잡하고 비보존적입니다. 이는 독립적으로 배포된 함수들이 **under t...** 하에서 어떻게 상호 작용하는지에 직접적인 결과입니다.