[Paper] 전체 시설 데이터 센터 인프라 계획을 위한 Generative AI 워크로드 전력 프로파일 측정
생성형 인공지능(AI)의 급속한 성장으로 전례 없는 계산 요구가 발생했으며, 이는 에너지 발자국의 상당한 증가를 초래하고 있다.
생성형 인공지능(AI)의 급속한 성장으로 전례 없는 계산 요구가 발생했으며, 이는 에너지 발자국의 상당한 증가를 초래하고 있다.
Pluralistic alignment는 대형 언어 모델(Large Language Models, LLMs) 개발에서 중요한 최전선으로 부상했으며, reward models(RMs)는 핵심 메커니즘으로 작용합니다.
robot learning을 확장하려면 실제 환경에서 풍부하고 장기적인 상호작용을 포함한 인간 데이터가 필요할 가능성이 높습니다. 이러한 데이터를 수집하기 위한 기존 접근법은…
훈련 데이터의 선택이 AI 모델에 어떤 영향을 미치는가? 이 질문은 interpretability, privacy, 그리고 basic science에 있어 중심적인 중요성을 가진다. 그 핵심은 …
본 논문에서는 비동기 Q…에 의해 생성된 Polyak‑Ruppert 평균 반복에 대한 고차원 central limit theorem의 수렴 속도를 유도한다.
Propositional Linear Temporal Logic (LTL)은 소프트웨어, 네트워크 등에서 바람직한 요구사항 및 보안·프라이버시 정책을 지정하기 위한 인기 있는 형식이다.
신경망의 복잡성이 증가함에 따라 자원 제한이 있는 장치에서 분산 머신러닝을 배포하는 것이 어려워집니다. Split learning (SL)은 …
Multiple Instance Learning (MIL)은 컴퓨터 병리학에서 기가픽셀 전체 슬라이드 이미지(WSI) 분류를 위한 지배적인 프레임워크입니다. 그러나 현재 MIL…
고급 원자로의 Real-time supervisory control은 물리적 센서가 위치한 지점을 포함한 plant‑wide thermal‑hydraulic 상태를 정확히 예측해야 합니다.
GROMACS는 고전 분자 동역학(MD)의 사실상 표준이다. 거의 양자 수준의 정확성을 MD 전반에 걸쳐 추구하는 AI 기반 interatomic potentials의 부상이…
대규모 언어 모델(LLMs)이 민감한 사용자 데이터로 점점 더 많이 학습됨에 따라, 언어 학습에서 프라이버시의 근본적인 비용을 이해하는 것이 필수적이 된다…
대형 언어 모델(LLMs)이 정적 챗봇에서 autonomous agents로 진화함에 따라, 주요 취약점 영역은 최종 출력에서 intermediate …
현대 추천 모델은 매개변수가 트릴리언 단위로 증가했습니다. 클러스터 규모가 O(1k) 수준으로 확장됨에 따라, 분산 학습 병목 현상이 계산 측면에서 변합니다.
상피 조직은 세포 간의 국부적인 기계적 상호작용을 통해 동적으로 형태를 재구성하며, 이 과정은 vertex models에 의해 잘 포착됩니다. 그러나 그들의 많은 조정 가능한 파라미터...
전통적인 optimization 문제는 종종 개별적으로 연구되었지만, 오늘날 많은 실제 문제들은 여러 optimization 구성 요소 간의 상호 의존성을 요구합니다.
정적인 “train then deploy” 패러다임은 대규모 언어 모델(LLM)이 지속적인 스트…에 대응하여 가중치를 동적으로 조정하는 것을 근본적으로 제한한다.
Churn flow‑수직 two‑phase flow에서의 혼돈적이고 진동적인 레짐은 40년 넘게 정량적인 수학적 정의가 없었다. 우리는 최초로…
대형 Vision‑Language 모델은 이미지 설명에서 object hallucination을 발생시킬 수 있으며, 효과적인 detection 및 mitigation 전략의 필요성을 강조한다.
Character Error Rate (CER)는 Optical Character Recognition (OCR)의 품질을 평가하는 핵심 지표입니다. 그러나 이 지표는 텍스트가 …
RL에서, 프롬프트가 주어지면 모델에서 여러 개의 완성을 샘플링하고 점수를 매깁니다. 두 가지 질문이 뒤따릅니다: 어떤 완성이 확률 질량을 얻어야 하는가, 그리고 h...
MLLM은 멀티모달 임베딩 작업에 성공적으로 적용되었지만, 그들의 생성적 추론 능력은 아직 충분히 활용되지 않고 있습니다. 직접적으로 cha...
대형 언어 모델(LLMs)이 일관된 내부 세계 모델을 형성하는지는 여전히 핵심 논쟁거리이다. 기존의 Next-Token Prediction(NTP)은 하나에 초점을 맞춘다.
인공지능 거버넌스에는 사각지대가 있다: AI 시스템이 행동하기 위해 사용하는 머신 아이덴티티이다. AI agents, service accounts, API tokens, 그리고 auto...
효율적인 데이터 로딩은 근시일 양자 머신러닝에 여전히 병목 현상으로 남아 있다. 기존 스킴(angle, amplitude, and basis encoding)은 충분히 활용하지 않는다…
이 논문은 Polynomial Mixer (PoM)를 소개한다. 이는 선형 복잡도를 갖는 새로운 토큰 믹싱 메커니즘으로, self-attention을 대체할 수 있는 드롭인 방식이다....
이 연구는 RGB 사전 학습된 VLM과 열 적외선 이미지 간의 표현 격차를 메우기 위한 경량 멀티모달 적응 프레임워크를 제안한다, 그리고…
대규모 언어 모델(LLM) 에이전트는 다중 에이전트 환경에서 인간 대리인으로 점점 더 많이 활동하고 있으며, 여기서 대표 에이전트는 다양한 피어를 통합합니다.
현대의 Transformer 기반 언어 모델은 자연어 처리 작업에서 강력한 성능을 달성하지만, 그들의 latent semantic spaces는 여전히 크게 통합되지...
Graphics Program Synthesis는 시각 데이터를 해석하고 편집하는 데 핵심적인 역할을 하며, 정적인 비주얼을 편집 가능한 형태로 역공학하는 과정을 효과적으로 지원합니다.
성격 특성은 자연어에 풍부하게 인코딩되어 있으며, 인간 텍스트로 학습된 large language models (LLMs)는 프롬프트에 조건을 걸면 성격을 시뮬레이션할 수 있다.
대규모 언어 모델(LLMs)은 강력한 프로그램 수리 성능을 달성하지만, 종종 과도한 수정으로 올바른 코드를 덮어쓰는 과다 편집(over-editing) 문제를 겪는다 ...
Neural network pruning은 조합 최적화 문제로 공식화될 수 있지만, 대부분의 기존 접근 방식은 복잡한 ...를 무시하는 greedy heuristics에 의존합니다.
오늘날 소프트웨어 아키텍처에서 대형 언어 모델(LLM)은 소프트웨어 아키텍처 코파일럿 역할을 합니다. 그러나 현재 대형 언어 모델을 평가할 벤치마크는 존재하지 않습니다.
Web applications은 서로 다른 정보 자원을 연결하기 위해 하이퍼링크에 크게 의존합니다. 그러나 웹의 동적 특성으로 인해 link rot이 발생하며, 이는 대상이 …
Pre-trained diffusion models는 All-in-One Restoration (AiOR)에서 중요한 발전을 가능하게 하여 향상된 지각 품질과 일반화를 제공합니다. Ho...
본 논문에서는 각 atomic predicate를 membership test로 해석하는 stratification‑based semantics를 Signal Temporal Logic (STL) 에 대해 개발한다.
우리는 반선형 편미분 방정식의 최적 제어를 위한 수치 도구로서 물리 기반 신경망(PINNs)을 연구한다. 먼저 c...
시각적 추론기(visual reasoner)가 차트, 과학, 공간 이해 및 개방형 과제 전반에 걸쳐 작동하려면 무엇이 필요할까요? 가장 강력한 비전‑언어 모델…
독점적인 AI 시스템은 최근 복잡한 증명 기반 문제에서 인상적인 능력을 보여주었으며, 2025 Inte에서 보고된 금 수준의 성능을 기록했습니다.
강화 학습 with verifiable rewards (RLVR)는 대형 언어 모델(LLMs)의 추론 능력을 크게 향상시켰다. 그러나, 그것은 …
Gradient normalization은 deep‑learning 최적화에서 중심적인 역할을 하며, training을 안정화하고 scale에 대한 민감도를 감소시킵니다. deep architectures에서는 parameter…
대형 언어 모델 에이전트가 소프트웨어 엔지니어링(SWE) 작업을 넘어 머신러닝 엔지니어링(MLE)으로 진전함에 따라, 에이전트 행동을 검증하는 것이 order...
머신러닝 모델, 특히 딥 뉴럴 네트워크는 의료, 환경 예측 등 위험 민감도가 높은 분야에 점점 더 많이 배치되고 있다.
과학 컴퓨팅 및 최신 머신 러닝(ML) 워크로드에서는, 종속적인 General Matrix Multiplications(GEMM) 시퀀스가 종종 실행 시간을 지배합니다....
나는 첫 번째 대회 ML 모델을 만드는 데 10일을 보냈다. 이 모델은 transformers, attention pooling, multiple input branches를 가지고 있었다. 점수는 0.500이었다.
Generative AI (GenAI) 도구는 소프트웨어 아키텍처 연구에 점점 더 통합되고 있지만, 그들의 계산 사용에 따른 환경적 영향은 아직 …
Parent selection 방법은 진화 계산(evolutionary computation)에서 최적화 과정을 가속화하기 위해 널리 사용되지만, 그 이론적 이점은 아직 충분히 이해되지 않고 있다.