[Paper] MEG-XL: 데이터 효율적인 Brain-to-Text via Long-Context 사전 학습
임상 뇌-텍스트 인터페이스는 광범위한 훈련 녹음을 제공할 수 없는 마비 환자를 위해 설계되었습니다. 사전 훈련은 데이터 효율적인 생성...
4538 posts from this source
임상 뇌-텍스트 인터페이스는 광범위한 훈련 녹음을 제공할 수 없는 마비 환자를 위해 설계되었습니다. 사전 훈련은 데이터 효율적인 생성...
Pixel diffusion은 이미지를 픽셀 공간에서 직접, 엔드‑투‑엔드 방식으로 생성하여, 두 단계 잠재 모델에서 VAE가 도입하는 아티팩트와 병목 현상을 피합니다.
우리는 RLAnything이라는 강화학습 프레임워크를 제안한다. 이 프레임워크는 폐쇄‑루프 최적화를 통해 환경, 정책 및 보상 모델을 동적으로 형성하고 이를 증폭한다.
LLM 기반 딥 리서치 에이전트는 대부분 ReAct 프레임워크를 기반으로 구축됩니다. 이러한 선형 설계는 이전 상태로 다시 돌아가거나 대안적인…
LLM 사후 훈련을 위한 RL의 성공은 지나치게 정보가 부족한 출처, 즉 롤아웃당 하나의 비트 정보(이진 보상 또는 선호)에서 비롯됩니다.
Likelihood-based policy gradient methods는 보상으로부터 로봇 제어 정책을 학습하는 데 지배적인 접근 방식입니다. 이러한 방법들은 미분 가능한 action에 의존합니다.
대형 언어 모델(Large language models, LLMs)은 단계별 사고 흐름(chain-of-thought, CoT) 추론을 통해 강력한 추론 능력을 입증했습니다. 그럼에도 불구하고, 한계에서는 …
대부분의 Large Language Model (LLM) 에이전트 메모리 시스템은 메모리를 추출하기 위해 소수의 정적이고 hand-designed operations에 의존합니다. 이러한 고정된 절차는 hard‑…
휴머노이드 로봇이 민첩하고 적응형 인터랙티브 작업을 수행하도록 하는 것은 로봇공학에서 오래전부터 핵심 과제였습니다. 현재 접근 방식은 ...
Progressive Learning (PL)은 모델 규모를 점진적으로 늘림으로써 사전 학습(pre‑training) 계산 오버헤드를 감소시킵니다. 기존 연구에서는 깊이 확장(depth expansion)을 광범위하게 탐구했지만…
딥러닝 기반 자동 세분화는 방사선 치료에서 점점 더 많이 사용되고 있지만, 기존 모델은 종종 해부학적으로 타당하지 않은 거짓 양성 결과를 생성하거나 h...
Autoregressive 대형 언어 모델(LLMs)은 많은 복잡한 작업에서 눈에 띄는 성공을 거두었지만, 여전히 매우 간단한 논리적 추론에서 실패할 수 있습니다 suc...
대규모 언어 모델(LLMs)의 급속한 발전은 이러한 모델이 어떤 형태의 의식을 가지고 있는지에 대한 질문을 제기했습니다. 이 문제에 접근하기 위해, ...
프론티어 모델은 시각 정보를 단순히 받아들이는 멀티모달 대형 언어 모델(MLLMs)에서 통합 멀티모달 모델(UMMs)으로 전환하고 있다.
Activation decomposition methods in language models는 개념이 activation space에서 구현되는 방식에 대한 geometric assumptions와 밀접하게 결합되어 있습니다. Existing appr...
대형 언어 모델이 자율 에이전트로 전환함에 따라, 사용자 입력은 종종 협력적 가정을 위반합니다(예: 암시적 의도, 누락된 매개변수, fal...).
Reranking은 현대 검색 시스템의 핵심 요소이며, 일반적으로 효율적인 first-stage retriever와 보다 표현력이 풍부한 모델을 결합하여 재…
엣지 AI 애플리케이션은 점점 초저전력, 저지연 추론을 필요로 합니다. 이벤트 기반 스파이킹 신경망(SNN) 기반의 뉴로모픽 컴퓨팅은…
우리는 sVIRGO, 대규모 분산 시스템을 위한 scalable virtual tree hierarchical framework를 제안한다. sVIRGO는 virtual hierarchical trees를 직접 ...에 구축한다.
통합 멀티모달 모델은 깊은 추론을 요구하는 복잡한 합성 작업에서 종종 어려움을 겪으며, 일반적으로 텍스트-투-이미지 생성 및 이미지 편집을…
Tropical forests는 지구의 대부분의 나무 생물다양성을 보유하고 있으며, 전 세계 생태 균형에 필수적이다. 특히 Canopy trees는 불균형적인 역할을 한다.
Graphical User Interface (GUI) 그라운딩은 자연어 명령을 실행 가능한 화면 좌표로 변환하여 자동화된 GUI 상호작용을 가능하게 합니다....
Out-of-distribution (OOD) 탐지는 딥 뉴럴 네트워크를 안전하게 배포하기 위해 필수적입니다. 최신 사후(post-hoc) 방법들은 일반적으로 OOD 점수 f...
Model editing은 대규모 사전 학습된 모델의 오류를 관련 없는 행동을 변경하지 않고 수정하는 것을 목표로 합니다. 최근 몇몇 연구에서는 vision-language model을 편집했지만…
풍부한 상호작용 하에서 변형 가능한 객체를 시뮬레이션하는 것은 real-to-sim 로봇 조작에서 근본적인 과제로 남아 있으며, 동역학은 환경에 의해 공동으로 구동됩니다.
인간 동작 분석 작업은 시간적 3D 포즈 추정, 동작 예측, 동작 인-비트윈과 같은 작업을 포함하며, 컴퓨터 비전에서 필수적인 역할을 합니다. 그러나...
우리는 SWE-Universe를 제안한다. 이는 확장 가능하고 효율적인 프레임워크로, GitHub와 같은 소스에서 실세계 소프트웨어 엔지니어링(SWE) 검증 가능한 환경을 자동으로 구축한다.
계층형 연합 학습(HFL)은 대규모 무선 및 사물인터넷 시스템을 위한 핵심 아키텍처로 부상했으며, 디바이스가 ...와 통신하는 환경에서 활용됩니다.
Locally Checkable Labelings (LCLs)의 연구는 제한된‑...에서 발생할 수 있는 분산 시간 복잡도에 대한 놀라울 정도로 정밀한 특성을 이끌어냈다.
GP-GOMEA는 특히 작고 잠재적으로 해석 가능한 솔루션을 찾는 데 있어 심볼릭 회귀 분야의 최첨단 기술 중 하나입니다. 핵심 메커니즘…
Continuous Integration (CI)는 코드 변경에 대한 빠른 피드백을 제공하기 위해 널리 사용되지만, CI 빌드 결과가 항상 신뢰할 수 있는 것은 아닙니다. 빌드는 중간에 실패할 수 있습니다.
요즘 neural networks는 artificial intelligence의 동의어처럼 사용된다. 현재 neural network 모델은 놀라울 정도로 강력하지만, 효율성이 both in ter...
최근 LLM의 발전은 다양한 AI 응용 분야에서 중요한 돌파구를 가져왔습니다. 그러나 그들의 정교한 능력은 심각한 사...
LLM 기반 코딩 에이전트는 실제 소프트웨어 개발 방식을 재정의하고 있습니다. 더 나은 코딩 에이전트를 위한 연구를 촉진하기 위해서는 도전적인 벤치마크가 필요합니다.
실제 환경에서 사전 학습된 정책을 배포하는 것은 학습 기반 …의 실용적 적용 가능성을 근본적으로 제한하는 중대한 과제를 제시한다.
State-of-the-art AI deep potentials는 ab initio 수준의 결과를 제공하지만, first-principles quantum mechanical calculations에 비해 훨씬 적은 계산 비용으로 가능합니다.
텍스트, 이미지, 비디오, 오디오를 동시에 처리하는 Any-to-any multimodal 모델은 multimodal AI에서 중요한 진전을 나타냅니다. 그러나 그들의 복잡한 ...
강화 학습(RL)은 사후 훈련된 대형 언어 모델(LLM)의 중요한 단계로, 롤아웃 생성과 보상 사이의 반복적인 상호작용을 포함합니다.
TriCloudEdge는 확장 가능한 3계층 클라우드 연속체로, far‑edge 디바이스, intermediate edge nodes, 그리고 central cloud services를 통합하여 병렬로 작동합니다.
관상동맥 협착은 심혈관 질환의 주요 원인 중 하나이며, 다중 혈관조영술 영상을 통해 관상동맥을 분석함으로써 진단됩니다. 비록 nu...
자동화된 차량은 다른 도로 이용자와 자연스러운 의사소통 채널이 부족하여, 외부 Human-Machine Interfaces(eHMIs)가 의도를 전달하는 데 필수적이다.
LLM에 대한 폭발적인 수요는 종종 사용자 쿼리가 서버 큐에 쌓이게 하며, 효율적인 라우팅(쿼리‑LLM 매칭)과 스케줄링(쿼리 우선순위…)이 필요합니다.
Multimodal foundation models는 다양한 modalities에 걸쳐 heterogeneous signals를 통합하지만, 그들의 predictions가 특정 intern…에 어떻게 의존하는지는 아직 충분히 이해되지 않는다.
초고속 온라인 학습은 양자 컴퓨팅 및 핵융합 제어와 같은 고주파 시스템에 필수적이며, 적응은 서브…에서 이루어져야 합니다.
Internet-of-Things 시스템에서 federated learning은 원시 데이터를 공유하지 않고 병렬 정책 훈련을 가능하게 함으로써 online reinforcement learning (RL)을 발전시켰습니다....
Graph-based Retrieval-Augmented Generation (GraphRAG)은 외부 지식을 계층적 그래프로 조직하여 효율적인 검색 및 집계를 가능하게 합니다, scat...
Text-to-image diffusion models는 generative AI에 혁명을 일으켜 고품질 및 photorealistic image synthesis를 가능하게 했습니다. 그러나 practical deployment…
4비트 연산을 사용하여 대규모 언어 모델을 학습하면 처리량과 메모리 효율성이 향상됩니다. 그러나 FP4의 제한된 동적 범위는 민감도를 증가시킵니다…