[Paper] 인컨텍스트 대수
우리는 토큰이 의미가 결정되는 변수인 시퀀스에서 산술을 해결하도록 트랜스포머를 학습시킬 때 발생하는 메커니즘을 조사한다.
우리는 토큰이 의미가 결정되는 변수인 시퀀스에서 산술을 해결하도록 트랜스포머를 학습시킬 때 발생하는 메커니즘을 조사한다.
AI technologies는 대규모 텍스트 코퍼스를 포함하는 비즈니스 및 연구 응용 분야로 빠르게 진입했으며, 여기에는 computational journalism 연구와 뉴스가 포함됩니다.
보상 모델(RMs)은 대형 언어 모델(LLMs) 훈련에 필수적이지만, 이미지와 텍스트가 교차하는 시퀀스를 처리하는 옴니 모델에 대해서는 아직 충분히 탐구되지 않았다.
임베디드 애플리케이션에서 하드웨어 추상화 계층(HAL) 인터페이스를 올바르게 사용하는 것은 오작동, 충돌, 심지어 하드웨어 손상을 방지하기 위해 매우 중요합니다. S...
Video Large Language Models (VLLMs)는 인터넷 규모 데이터에 대한 사전 학습을 통해 세계 지식을 활용한 비디오 이해를 가능하게 하며, 이미 가능성을 보여주고 있습니다.
대규모 언어 모델(LLMs)을 강화 학습(RL)을 통해 검색 엔진과 결합하는 것이 검색 에이전트를 구축하는 효과적인 접근법으로 부상하고 있다. Howe...
Equivariant atomistic machine learning 모델은 외삽 능력과 예측 정확도 모두에서 상당한 향상을 가져왔습니다. 기반에 따라...
로봇 학습 연구에 있어 중요한 과제는 로봇 정책의 성능을 정확하게 측정하고 비교할 수 있는 능력입니다. 로봇공학에서의 벤치마킹…
Machine Learning (ML)을 희귀 질환, 예를 들어 collagen VI‑related dystrophies (COL6‑RD)의 진단에 적용하는 것은 근본적으로 s…에 의해 제한됩니다.
생물학에서 영감을 받은 스파이킹 뉴럴 네트워크(SNN)는 시간에 따라 이산적인 스파이크를 통해 정보를 처리하여 고전적인 방법에 대한 에너지 효율적인 대안을 제공합니다.
Transformer 기반 언어 모델은 다양한 작업에서 놀라운 성능을 달성했지만, 높은 inference latency는 상당한 과제를 제기합니다.
Prosody -- 말의 멜로디 --는 메시지의 단어나 텍스트에 포착되지 않는 중요한 정보를 전달한다. 이 논문에서는 information-t...
요즘, 대규모 언어 모델(LLMs)은 현대 소프트웨어 시스템의 기본 구성 요소입니다. 그 영향력이 커짐에 따라 공정성에 대한 우려가 증가하고 있습니다.
반응형 재머는 로봇 스웜 네트워크에 대해 선택적으로 에이전트 간 통신을 방해하고 형성 무결성을 약화시켜 심각한 보안 위협을 제기한다.
본 논문에서는 기존 다중 접속 에지 서버의 업그레이드를 포함하는 새로운 네트워크 계획 문제로서 Multi-stage Edge Server Upgrade (M-ESU)를 제안한다.
주석은 소스 코드의 비기능적 요소이지만, Large Language Models (LLM)은 종종 이를 활용하여 Software Engineering (SE) 작업을 수행한다. 그러나, ...
Mutation analysis는 전통적인 소프트웨어 개발 패러다임에서 인위적인 결함을 주입함으로써 테스트 품질을 평가하는 잘 확립된 기법입니다.
우리는 Lockchain Protocol을 소개한다. 이는 경량의 Bitcoin 메타프로토콜로, 블록 공간 비용을 추가로 들이지 않고도 매우 효율적인 transaction discovery를 가능하게 한다.
Generative art systems는 종종 고차원적이고 복잡한 파라미터 공간을 포함하며, 그 안에서 미학적으로 매력적인 출력은 작은, 파편화된 영역에만 존재한다.
Large Language Models (LLMs)은 다양한 작업에서 인상적인 결과를 달성했지만, 높은 계산 요구량으로 인해 특히 … 배포에 어려움을 초래합니다.
본 논문에서는 과학 워크로드에서 Artificial Intelligence를 지원하기 위해 전용된 federated compute platform을 설명합니다. 재현성을 위해 노력을 기울이며...
neural networks가 외부 optimizers에 의존하지 않고 스스로 진화할 수 있는 방법은 무엇일까요? 우리는 Self-Referential Graph HyperNetworks를 제안합니다. 이는 바로 그 machine이…
Attention은 long-context LLM inference 중 latency의 지배적인 원인으로, reasoning models와 RAG와 함께 점점 더 인기를 끌고 있는 워크로드입니다. 우리는 Kascad를 제안합니다.
배경: 컴파일러는 소프트웨어 개발의 근본적인 요소로, 고수준 소스 코드를 실행 가능한 소프트웨어 시스템으로 변환합니다. 컴파일러의 결함은...