[Paper] 아비트리지: 효율적인 추론을 위한 이점 인식 추측
Modern Large Language Models는 긴 Chain of Thoughts를 통해 인상적인 추론 능력을 달성하지만, 추론 중에 상당한 computational cost가 발생합니다.
4670 posts from this source
Modern Large Language Models는 긴 Chain of Thoughts를 통해 인상적인 추론 능력을 달성하지만, 추론 중에 상당한 computational cost가 발생합니다.
스파이킹 뉴럴 네트워크는 이벤트 구동 연산, 희소 활성화, 그리고 하드웨어 효율성을 제공하지만, 학습은 종종 수렴이 느리고 안정성이 부족합니다. 우리는 ...
이 확장 초록은 Self-Explaining Contrastive Evidence Re-Ranking (CER)이라는 새로운 방법을 소개합니다. 이 방법은 사실 증거를 중심으로 검색을 재구성합니다 by f...
표현력이 풍부한 탐색 공간에서의 Neural architecture search (NAS)는 계산적으로 어려운 문제이지만, 자동으로 복잡한 …를 발견할 잠재력을 가지고 있다.
대형 언어 모델(Large Language Models, LLMs)이 수동적인 응답자에서 자율 에이전트로 진화함에 따라 학습 패러다임에 근본적인 전환이 필요합니다—정적…
테라헤르츠(THz) 통신과 연합 학습(FL)의 융합은 초고속 분산 학습을 약속하지만, 현실적인 광대역 …
대규모 언어 모델(LLMs)은 다양한 언어 관련 작업에서 놀라운 잠재력을 보여주지만, 그들이 더 깊은 언어적 특성을 포착하는지 여부는…
환경과의 다중 상호작용을 통해 복잡한 작업을 수행할 수 있는 에이전트가 인기 있는 연구 방향으로 떠올랐습니다. 그러나 이러한 …
대형 언어 모델(LLMs)은 복잡한 추론 작업을 해결하는 데 매우 효과적인 것으로 입증되었습니다. 놀랍게도, 그들의 능력은 종종 i...
이 논문은 개별 뉴런 수준에서 하드웨어 중복성을 활용하여 신경망의 기능적 안정성을 보장하는 혁신적인 접근법을 제시한다. 기존의...
현대 소프트웨어 생태계의 규모, 복잡성, 상호 연결성 및 자율성의 증가는 전례 없는 불확실성을 초래하며, 기반을 위협한다...
Self-adaptive systems (SASs)는 변화와 불확실성을 처리하도록 설계되었으며, 네 가지 핵심 기능인 모니터링, 분석, pla...을 포함하는 피드백 루프를 통해 동작합니다.
대규모 언어 모델(LLMs)은 일반 자연어 처리와 코드 합성, 법률 추론과 같은 도메인 특화 응용 분야 모두에 혁신을 가져왔습니다.
Proof-of-Vulnerability (PoV) 입력 생성은 소프트웨어 보안에서 중요한 작업이며, 경로 생성 및 검증과 같은 하위 애플리케이션을 지원합니다.
함수 수준에서 리포지토리 수준까지의 code completion 작업은 대규모 codebases의 contextual information을 활용하는 것이 핵심 과제가 됩니다. 그러나,…
본 연구에서는 mixed-cell-height legalization 작업을 위한 FPGA-CPU accelerator인 FLEX를 제시한다. 우리는 다음과 같은 관점에서 도전 과제들을 다룬다. 첫째, w...
그래프에 대한 머신러닝은 최근 분자 특성 예측 및 칩 설계와 같은 다양한 분야에서 인상적인 진전을 이루었습니다. 그러나 벤치...
로그 파싱은 원시 로그를 상수와 변수를 포함하는 구조화된 템플릿으로 변환합니다. 이는 이상 탐지, 장애 진단 및 기타 AIOps의 기반이 됩니다.
CXL 기반 컴퓨테이셔널 메모리(CCM)는 확장된 원격 메모리 내에서 근접 메모리 처리를 가능하게 하여 데이터 이동 비용을 해결할 기회를 제공합니다…
Workflow automation은 일상적인 문서 관련 작업에서 상당한 생산성 향상을 약속합니다. 기존의 agentic systems는 개별 명령을 실행할 수 있지만, t...
Spiking Neural Networks (SNNs)는 희소한 이진 활성화 덕분에 기존 신경망에 대한 유망하고 에너지 효율적인 대안을 제공합니다. How...
Hallucinations은 Foundation models (FMs)에 의존하는 애플리케이션을 만들 때 주요 우려 사항입니다. 이러한 미묘한 실패가 어디에서 어떻게 발생하는지 이해하는 것은 …
희소 LU 분해에서, 기호 분해 후의 비제로 요소들은 희소 행렬의 대각선 및 오른쪽 아래 영역에 분포하는 경향이 있습니다. 그러나, re...
현대 GPU 소프트웨어 스택은 개발자에게 커널을 실행하기 전에 성능 병목 현상을 예측할 수 있는 능력을 요구한다; 부동소수점 워크로드를 잘못 판단하면 …
현대 parallel machines의 복잡성과 규모가 계속 증가함에 따라, 프로그래머들은 software libraries의 구성에 점점 더 의존하여 …
Parameter-efficient fine-tuning (PEFT)은 대규모 사전 학습 모델에서 소수의 파라미터만 업데이트함으로써 전체 모델 적응에 대한 확장 가능한 대안을 제공합니다.
2024년에 Argonne National Laboratory에 배치된 Aurora 슈퍼컴퓨터는 현재 Top500 리스트에서 전 세계 세 대의 Exascale 머신 중 하나입니다.
우리는 tritonBLAS를 제시합니다. 이는 캐시 계층 구조와 같은 아키텍처 파라미터 및 코드와 데이터의 상대적 배치를 활용하는 빠르고 결정론적인 분석 모델입니다.
Normalizing Flows (NFs)는 데이터와 Gaussian distribution 사이의 가역 매핑을 학습합니다. 기존 연구들은 보통 두 가지 제한점을 가지고 있습니다. 첫 번째로, 그들은 추가합니다...
우리는 ‘single-life’ 학습 패러다임을 소개합니다. 이 패러다임에서는 한 개인이 촬영한 egocentric 비디오에만 전용 vision model을 학습시킵니다. 우리는 …
Graphic design는 현대 시각 커뮤니케이션의 초석을 이루며, 문화 및 상업 행사 홍보를 위한 중요한 매체 역할을 합니다. 최근의 진보는…
우리는 radiance meshes를 소개한다. 이는 Delaunay tetrahedralization으로 생성된 constant density tetrahedral cells를 사용하여 radiance fields를 표현하는 기술이다.
Reasoning models가 긴 사고 사슬(long chains of thought)을 활용하면 답변 검증, 역추적, 대안적인 재시도와 같은 다양한 인지 기술을 사용합니다.
Vision Language Models (VLMs)은 강력한 정성적 시각 이해를 보여주지만, 구현된 …에 필요한 계량적으로 정확한 공간 추론에 어려움을 겪는다.
불명확하거나 모호한 질의를 처리하기 위해, AI 어시스턴트는 불확실성을 관리하는 정책이 필요하며, (a) 언제 사용자 의도를 추측하고 답변을 제공할지, (b) …
오늘날 점점 복잡해지는 세상에서, Ola, Uber, Rapido와 같은 좋은 호출 서비스가 매우 중요합니다. 이는 우리 일상 교통에 필수적이기 때문입니다.
벤치마크의 급속한 확산은 재현성, 투명성 및 정보에 기반한 의사결정에 큰 도전을 야기하고 있습니다. 그러나 데이터셋과는 달리...
벨이 발견한, 고전적으로 재현될 수 없는 양자 상관관계가 존재한다는 사실은 양자 역학의 기초에서 가장 중요한 것 중 하나이다.
Network Interface Cards(NICs)는 현대 인터넷의 핵심 촉진 요소 중 하나입니다. 이들은 컴퓨팅 장치를 네트워크에 연결하기 위한 게이트웨이 역할을 합니다.
현대 딥러닝 모델은 막대한 계산 자원을 필요로 하며, 이는 low-precision training에 대한 연구를 촉진한다. Quantised training은 이를 …
Sign Language Production (SLP)은 복잡한 입력 텍스트를 실제 비디오로 변환하는 과정이다. 대부분의 이전 연구들은 Text2Gloss, Gloss2Pose 등에 초점을 맞추었다.
민주주의에서는 주요 정책 결정이 일반적으로 다수 혹은 합의를 필요로 하므로, 엘리트는 통치를 위해 대중의 지지를 확보해야 합니다. 역사적으로 엘리트는 …
워터마킹은 비밀 키에 접근할 수 있을 때 신뢰할 수 있게 감지될 수 있는 숨겨진 신호를 생성된 텍스트에 삽입하는 것을 목표로 합니다. Open-weight language models는 ...
진정으로 인터랙티브한 세계 모델은 세 가지 핵심 요소가 필요합니다: real-time long-horizon streaming, consistent spatial memory, 그리고 precise user control. 그러나, ...
이 논문은 두 가지 주요 영역에서 새로운 기여를 제시합니다: 생성 모델, 특히 normalizing flows의 효율성을 향상시키고, gener...
왜 state-of-the-art OOD detection methods가 모델이 single-domain datasets로 학습될 때 catastrophic failure를 보이는가? 우리는 최초의 theoretical …
우리는 Jina-VLM을 소개합니다. 2.4B 파라미터를 가진 비전-언어 모델로, 오픈 2B 규모 VLM 중에서 최첨단 다국어 시각 질문 응답을 달성합니다. The ...
본 연구는 대규모 언어 모델(LLMs)이 전통적인 신경망에 비해 천문 데이터 처리에서 이점을 제공하는지, ... regimes with ... 에서 조사한다.