[Paper] Long-Context Aware Upcycling: 하이브리드 LLM 스케일링을 위한 새로운 프론티어
효율적인 Transformer 구성 요소와 선형 시퀀스 모델링 블록을 결합한 하이브리드 시퀀스 모델은 순수 Transformer에 대한 유망한 대안이지만 ...
4454 posts from this source
효율적인 Transformer 구성 요소와 선형 시퀀스 모델링 블록을 결합한 하이브리드 시퀀스 모델은 순수 Transformer에 대한 유망한 대안이지만 ...
Large language models는 코드 생성에 점점 더 많이 사용되고 있지만, 그 출력의 정확성은 모델 능력뿐만 아니라 작업이 어떻게 …
데이터-패럴렐 확률적 경사 하강법(data-parallel stochastic gradient descent)을 사용하여 대규모 신경망을 훈련할 때, N개의 GPU 복제본을 할당해 사실상 동일한 업데이트를 계산합니다 — 이러한 관행은 …
대형 언어 모델은 코드 생성에 널리 사용되지만, 작업 설명이 충분히 상세하고 잘…
Large language models (LLMs)은 점점 더 많이 배포되고 있지만, 그 출력은 사용자가 질문을 표현하는 일상적인 비적대적 변형에 매우 민감할 수 있습니다.
대규모 언어 모델(LLMs) 기반 애플리케이션, 예를 들어 multi-agent simulations는 에이전트 간 인구 다양성을 필요로 합니다. 우리는 널리 퍼진 실패를 식별합니다.
에이전시 인공지능 시스템은 과학적 워크플로우를 가속화할 것을 약속하지만, 신경영상은 고유한 도전을 제시한다: 이질적인 모달리티(sMRI, fM… )
Autonomous AI agents는 완전히 권한이 부여된 상태를 유지하면서도 행동이 변질되고, 적이 적응하며, 의사결정 패턴이 변함에 따라 코드 변경 없이도 안전하지 않을 수 있습니다.
대규모 언어 모델(LLMs)은 범용 코드 생성에서 강력한 성능을 보이지만, 기업용 도메인 특화 언어(DSLs)에 대한 적용 가능성은 여전히…
이 논문은 출처의 신뢰성이 터키어 증거 형태에 영향을 미치는지와 대형 언어 모델(LLMs)이 이러한 민감성을 추적하는지를 조사한다. 우리는 ...
Long-context reasoning은 대형 언어 모델(LLMs)의 핵심 역량으로, 장문 문서 이해, 요약, 그리고 c...
한국 기상 예보관을 위한 실용적인 (멀티모달) 대형 언어 모델 어시스턴트 개발은 다차원적인, exper...
텍스트만으로 풍부한 360-degree panoramic worlds를 즉시 생성하는 꿈이 빠르게 현실이 되고 있지만, 신뢰할 수 있게 …
On-device Small Language Models (SLMs)는 모바일 사용자에게 완전 오프라인, 프라이빗 AI 경험을 약속합니다(클라우드 의존 없음, 데이터가 기기를 떠나지 않음). 하지만 …
Unified multi-modal understanding/generative models는 fine-grained understanding을 Chain-o...에 통합함으로써 이미지 편집 성능을 향상시킨 것으로 나타났습니다.
대형 언어 모델(LLMs)은 소프트웨어 엔지니어링(SE) 도구에 점점 더 많이 통합되어 코드 생성, 자동 코드 리뷰와 같은 애플리케이션에 힘을 실어주고 있습니다.
Large language model (LLM) agents는 점점 순차적인 소프트웨어 시스템으로 작동하지만, 그 신뢰성은 종종 스칼라 벤치마크 메트릭으로 요약됩니다. Me...
클라우드 컴퓨팅 플랫폼은 elastic scaling, managed infrastructure, pay-per-use pricing을 제공하지만, 기존 모놀리식 백엔드를 이들로 이전하는 것은 여전히 어려운 과제입니다.
클라우드 공급업체는 잉여 자원 활용을 극대화하기 위해 할인된 spot 인스턴스를 제공하지만, 이러한 인스턴스는 갑작스러운 중단 위험에 노출됩니다. 전통...
자동화 코드 리뷰(ACR) 봇은 산업용 소프트웨어 개발에서 풀 리퀘스트(PR) 리뷰 중 개발자를 지원하기 위해 점점 더 많이 사용되고 있습니다. 채택이 증가함에 따라...
오픈소스 소프트웨어(OSS) 개발자들은 사용자 컨텍스트를 이해하고 대응하는 데 종종 어려움을 겪으며, 기존 도구인 이슈 트래커(버그 처리용 등)와 같은…
우리는 Incisor를 소개합니다, 클라우드 HPC 작업 제출 시스템으로, 사전 인스턴스 선택 문제를 해결합니다: 도전적이지만 흔한 환경에서 적절한 하드웨어를 선택하는 것.
LLM-guided evolutionary search는 자동 알고리즘 발견을 위한 유망한 패러다임으로 부상했지만, 대부분의 시스템은 검색 진행 상황을 주로 e...을 통해 추적합니다.
recurrent neural networks, polynomial ODEs, 그리고 discrete polynomial maps는 각각 계산에 무엇을 제공하며, 무엇이 부족한가? 세 가지 모두 co…에 대해 작동한다.
신흥 IoT 기반 사이버-물리 애플리케이션은 리소스가 제한된 엣지 디바이스에서 저지연, 에너지 효율적, 그리고 신뢰할 수 있는 실행을 요구한다...
멀티에이전트 LLM 튜터링 시스템은 에이전트 전문화를 통해 응답 품질을 향상시키지만, 각 학생 질의는 여러 동시 API 호출을 트리거하고 그 지연…
원자로 압력 용기(RPV) 강재의 수명 예측은 원자 수준의 열화 메커니즘을 서비스 규모의 공간 및 시간 영역과 연결해야 합니다, f...
대규모 tensor‑parallel 훈련에서 communication overhead를 처리하는 것은 중간 텐서의 조밀하고 거의 제로에 가까운 분포 때문에 여전히 중요한 과제입니다.
클라우드 사용자는 워크로드에 가장 적합한 인스턴스 유형을 선택하여 비용을 최소화하고 성능을 극대화하려고 합니다. 비용을 절감하기 위해, 스팟 인스턴스…
대규모 언어 모델의 규모가 급격히 성장함에 따라 GPU, TPU 및 N…와 같은 가속기 전반에 걸쳐 계산 작업을 분할해야 할 필요가 생겼습니다.
우리는 Kolmogorov-Arnold Networks (KANs)의 edge functions 측면에서 universal approximation property를 분석한다. 만약 이 함수들이 모두 affine라면, u...
이 논문은 딥 컨볼루션 신경망의 학습 효율성을 향상시키는 새로운 방법을 제안한다. 학습 중에, 이 방법은 점수를 평가하여 측정한다...
Symbolic regression은 데이터로부터 수학적 공식을 발견합니다. 일부 방법은 연산자 트리를 고정하고, 학습 가능한 가중치를 할당한 뒤, gradient descent로 학습합니다. Th...
스케일링 법칙은 수백만 달러 규모의 훈련 실행을 계획하는 데 사용되지만, 이러한 법칙을 맞추는 데에도 수백만 달러가 들 수 있습니다. 현대의 대규모 워크플로우에서는, ...
대형 언어 모델(LLMs)은 일상적인 사용부터 고위험 기업 및 정부 애플리케이션에 이르기까지 텍스트 생성 작업에 점점 더 많이 활용되고 있습니다, 포함…
AI 시스템이 텍스트 생성에서 지속적인 상호작용을 통한 목표 달성으로 이동함에 따라, 환경 역학을 모델링하는 능력이 핵심 병목이 된다.
대리 모델로 학습된 ReLU 신경망은 혼합 정수 선형 프로그램(MILPs)에 정확히 삽입될 수 있어, 학습된 …에 대한 전역 최적화를 가능하게 한다.
플랜 존재 문제는 목표가 모달 논리의 공식 형태로 주어지고, 초기 인식 상태(포인티드 크립키 모델)와 일련의 인식…
우리는 현대 morphological data만을 사용해 훈련된 neural models가 historical records와 일치하는 cross-lingual lexical structure를 복원할 수 있는지를 조사한다.
우리는 cross-lingual transfer learning과 unsupervised clustering을 결합하여 저자원 Bantu 언어에서 형태론적 특징을 발견하는 방법을 제시한다.
인터넷 사진 컬렉션은 매우 긴 꼬리 분포를 보인다: 몇몇 유명한 랜드마크는 사진이 많이 촬영되어 3D로 쉽게 복원되는 반면, ...
긴, 명시적인 chains-of-thought (CoT)는 복잡한 추론 작업에서 효과적인 것으로 입증되었지만, 추론 과정에서 이를 생성하는 데 비용이 많이 듭니다. Non-verbal reasoning...
Respiratory airflow signals는 호흡 역학에 대한 중요한 통찰을 제공하지만, conventional analysis methods는 이를 특성화하는 능력이 제한적이다...
대규모 코퍼스에서 파인튜닝을 위해 작은 고품질 서브셋을 선택하는 것은 코퍼스가 수천만 개의 데이터 포인트로 확대됨에 따라 점점 더 중요해지고 있으며, 이는 f...
우리는 SS3D를 제시한다. 이는 웹 스케일 SfM 기반 self-supervision 사전 훈련 파이프라인으로, 단일 비디오(monocular video)에서 feed‑forward 3D 추정을 수행한다. 우리의 모델은 depth와 …를 동시에 예측한다.
채용 분야에서 AI 시스템의 채택이 늘어나면서 알고리즘 편향과 책임성에 대한 우려가 커지고 있으며, 이에 대한 규제 대응으로 EU AI Act 등을 포함한 조치가 이루어지고 있다.
그래프 신경망은 강력한 노드 분류 정확도를 달성하지만, 학습된 메시지 패싱은 ego 속성, 이웃 스무딩, 하이패스…을 얽히게 만든다.
Shapley values는 설명 가능한 AI의 초석이지만, 다양한 형태로 확산되면서 합의가 거의 없는 파편화된 환경을 만들었습니다.