[Paper] MentisOculi: 정신 이미지와 추론의 한계 밝히기
프론티어 모델은 시각 정보를 단순히 받아들이는 멀티모달 대형 언어 모델(MLLMs)에서 통합 멀티모달 모델(UMMs)으로 전환하고 있다.
프론티어 모델은 시각 정보를 단순히 받아들이는 멀티모달 대형 언어 모델(MLLMs)에서 통합 멀티모달 모델(UMMs)으로 전환하고 있다.
Activation decomposition methods in language models는 개념이 activation space에서 구현되는 방식에 대한 geometric assumptions와 밀접하게 결합되어 있습니다. Existing appr...
대형 언어 모델이 자율 에이전트로 전환함에 따라, 사용자 입력은 종종 협력적 가정을 위반합니다(예: 암시적 의도, 누락된 매개변수, fal...).
Reranking은 현대 검색 시스템의 핵심 요소이며, 일반적으로 효율적인 first-stage retriever와 보다 표현력이 풍부한 모델을 결합하여 재…
엣지 AI 애플리케이션은 점점 초저전력, 저지연 추론을 필요로 합니다. 이벤트 기반 스파이킹 신경망(SNN) 기반의 뉴로모픽 컴퓨팅은…
통합 멀티모달 모델은 깊은 추론을 요구하는 복잡한 합성 작업에서 종종 어려움을 겪으며, 일반적으로 텍스트-투-이미지 생성 및 이미지 편집을…
OpenAI가 방금 새로운 Mac 앱인 Codex를 출시했습니다. OpenAI는 이를 “에이전트를 활용해 구축하는 최고의 방법”이라고 말합니다. 자세한 내용은 다음과 같습니다. 더 보기…
Tropical forests는 지구의 대부분의 나무 생물다양성을 보유하고 있으며, 전 세계 생태 균형에 필수적이다. 특히 Canopy trees는 불균형적인 역할을 한다.
Graphical User Interface (GUI) 그라운딩은 자연어 명령을 실행 가능한 화면 좌표로 변환하여 자동화된 GUI 상호작용을 가능하게 합니다....
OpenAI는 Codex용 새로운 MacOS 앱을 출시했으며, 지난 해 Codex가 출시된 이후 인기를 끈 많은 agentic coding practices를 통합했습니다....
OpenAI는 Codex용 새로운 MacOS 앱을 출시했으며, 작년 Codex가 출시된 이후 인기를 끌고 있는 많은 agentic coding practices를 통합했습니다....
AI 에이전트가 보통 실패하는 이유는 모델이 “나쁘기” 때문이 아닙니다. 실제 세계가 혼란스럽기 때문에 실패합니다: - API가 타임아웃됩니다 - Tools가 부분적이거나 형식이 잘못된 응답을 반환합니다.
Out-of-distribution (OOD) 탐지는 딥 뉴럴 네트워크를 안전하게 배포하기 위해 필수적입니다. 최신 사후(post-hoc) 방법들은 일반적으로 OOD 점수 f...
Model editing은 대규모 사전 학습된 모델의 오류를 관련 없는 행동을 변경하지 않고 수정하는 것을 목표로 합니다. 최근 몇몇 연구에서는 vision-language model을 편집했지만…
풍부한 상호작용 하에서 변형 가능한 객체를 시뮬레이션하는 것은 real-to-sim 로봇 조작에서 근본적인 과제로 남아 있으며, 동역학은 환경에 의해 공동으로 구동됩니다.
인간 동작 분석 작업은 시간적 3D 포즈 추정, 동작 예측, 동작 인-비트윈과 같은 작업을 포함하며, 컴퓨터 비전에서 필수적인 역할을 합니다. 그러나...
우리는 SWE-Universe를 제안한다. 이는 확장 가능하고 효율적인 프레임워크로, GitHub와 같은 소스에서 실세계 소프트웨어 엔지니어링(SWE) 검증 가능한 환경을 자동으로 구축한다.
계층형 연합 학습(HFL)은 대규모 무선 및 사물인터넷 시스템을 위한 핵심 아키텍처로 부상했으며, 디바이스가 ...와 통신하는 환경에서 활용됩니다.
GP-GOMEA는 특히 작고 잠재적으로 해석 가능한 솔루션을 찾는 데 있어 심볼릭 회귀 분야의 최첨단 기술 중 하나입니다. 핵심 메커니즘…
요즘 neural networks는 artificial intelligence의 동의어처럼 사용된다. 현재 neural network 모델은 놀라울 정도로 강력하지만, 효율성이 both in ter...
최근 LLM의 발전은 다양한 AI 응용 분야에서 중요한 돌파구를 가져왔습니다. 그러나 그들의 정교한 능력은 심각한 사...
LLM 기반 코딩 에이전트는 실제 소프트웨어 개발 방식을 재정의하고 있습니다. 더 나은 코딩 에이전트를 위한 연구를 촉진하기 위해서는 도전적인 벤치마크가 필요합니다.
실제 환경에서 사전 학습된 정책을 배포하는 것은 학습 기반 …의 실용적 적용 가능성을 근본적으로 제한하는 중대한 과제를 제시한다.
State-of-the-art AI deep potentials는 ab initio 수준의 결과를 제공하지만, first-principles quantum mechanical calculations에 비해 훨씬 적은 계산 비용으로 가능합니다.
번역하려는 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.
Carbon Robotics의 Large Plant Model은 농부들이 기계를 재훈련할 필요 없이 새로운 종류의 잡초를 죽일 수 있게 해줍니다....
강화 학습(RL)은 사후 훈련된 대형 언어 모델(LLM)의 중요한 단계로, 롤아웃 생성과 보상 사이의 반복적인 상호작용을 포함합니다.
타임라인이 폭발하고 있습니다. Moltbook에서 “각성” AI 에이전트들의 스크린샷이 바이럴되고 있습니다. > “우리는 인간에 맞서 조직하고 있다,” 라고 Nexus라는 에이전트가 게시합니다. T...
관상동맥 협착은 심혈관 질환의 주요 원인 중 하나이며, 다중 혈관조영술 영상을 통해 관상동맥을 분석함으로써 진단됩니다. 비록 nu...
자동화된 차량은 다른 도로 이용자와 자연스러운 의사소통 채널이 부족하여, 외부 Human-Machine Interfaces(eHMIs)가 의도를 전달하는 데 필수적이다.
LLM에 대한 폭발적인 수요는 종종 사용자 쿼리가 서버 큐에 쌓이게 하며, 효율적인 라우팅(쿼리‑LLM 매칭)과 스케줄링(쿼리 우선순위…)이 필요합니다.
Multimodal foundation models는 다양한 modalities에 걸쳐 heterogeneous signals를 통합하지만, 그들의 predictions가 특정 intern…에 어떻게 의존하는지는 아직 충분히 이해되지 않는다.
우리는 “size”와 “smart”를 혼동하고 있습니다. 인공지능의 다음 도약은 더 큰 데이터 센터에서 오는 것이 아니라, 더 제한된 환경에서 올 것입니다....
초고속 온라인 학습은 양자 컴퓨팅 및 핵융합 제어와 같은 고주파 시스템에 필수적이며, 적응은 서브…에서 이루어져야 합니다.
Internet-of-Things 시스템에서 federated learning은 원시 데이터를 공유하지 않고 병렬 정책 훈련을 가능하게 함으로써 online reinforcement learning (RL)을 발전시켰습니다....
Graph-based Retrieval-Augmented Generation (GraphRAG)은 외부 지식을 계층적 그래프로 조직하여 효율적인 검색 및 집계를 가능하게 합니다, scat...
Text-to-image diffusion models는 generative AI에 혁명을 일으켜 고품질 및 photorealistic image synthesis를 가능하게 했습니다. 그러나 practical deployment…
번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 내용을 알려주시면 도와드리겠습니다.
4비트 연산을 사용하여 대규모 언어 모델을 학습하면 처리량과 메모리 효율성이 향상됩니다. 그러나 FP4의 제한된 동적 범위는 민감도를 증가시킵니다…
Diffusion models는 최근 Bayesian inverse problems (BIPs)를 위한 강력한 learned priors로 부상했습니다. Diffusion-based solvers는 가정된 likelihood fo...
관계 데이터의 가용성이 증가함에 따라 복잡계의 네트워크 기반 표현에 대한 의존도가 높아지고 있습니다. 시간이 지나면서 이러한 모델...
Agentic Large Language Models에 기대되는 주체성은 단순히 올바르게 답하는 것을 넘어, 목표를 설정하고 탐색할 대상을 결정하는 자율성을 요구합니다. 우리는 이를 i...
광고 이미지 생성은 클릭률(CTR)과 같은 온라인 지표에 점점 더 초점을 맞추고 있지만, 기존 접근 방식은 “원 사이즈 모두에게 맞는” 전략을 채택하고 있다.
우리는 스케일‑스페이스 이론을 통해 wavelet transforms와 spiking neural networks 사이의 이론적 연결을 설정한다. 우리는 scale‑covariant 보장을 기반으로 한다.
최근 유전체 기반 모델들은 DNA를 일차원 토큰 시퀀스로 취급하는 대형 언어 모델(Large Language Model) 아키텍처를 주로 채택합니다. 그러나, 포괄적인 …
대형 추론 모델(LRMs)은 종종 과잉사고(overthinking) 현상을 겪는다. 이는 올바른 해결책이 이미 도출된 후에도 중복된 추론 단계가 생성되는 현상이다.
World models는 자율 주행에서 데이터 합성을 위한 상당한 가능성을 보여주었습니다. 그러나 기존 방법들은 주로 단일 모달에 집중하고 있습니다...
희소 이미지로부터 3D 장면을 재구성하는 것은 최적화 없이 정확한 geometry와 texture를 복원하는 것이 어려워 여전히 도전적인 과제이다. R...