[Paper] TritonForge: 프로파일링 기반 자동 Triton 커널 최적화 프레임워크
고성능 GPU 커널 최적화는 현대 머신러닝 워크로드에서 여전히 중요한 동시에 노동 집약적인 작업입니다. 비록 Triton, 도메인‑특화 언어가…
3272 posts from this source
고성능 GPU 커널 최적화는 현대 머신러닝 워크로드에서 여전히 중요한 동시에 노동 집약적인 작업입니다. 비록 Triton, 도메인‑특화 언어가…
우리는 최근의 256 SSE 벡터 작업을 512 AVX로 확장하여 4배 속도 향상을 달성했습니다. 우리는 MAGPIE (Machine Automated General Performance Improvement via Evolution of so... )를 사용합니다.
Agentic AI 시스템은 대규모 언어 모델(LLMs)을 기반으로 구축되어 소프트웨어 개발부터 고객 지원에 이르기까지 복잡한 워크플로우를 자동화할 수 있는 상당한 잠재력을 제공합니다.
최근 확산 트랜스포머의 발전으로 비디오 생성 모델이 텍스트나 이미지로부터 고품질 비디오 클립을 생성할 수 있게 되었습니다. 그러나 world model...
Novel View Synthesis (NVS)는 전통적으로 Structure‑from‑Motion에서 얻은 알려진 카메라 파라미터와 결합된 명시적인 3D inductive biases를 가진 모델에 의존해 왔습니다.
비디오에서 동적 장면의 복잡한 기하학 및 움직임을 이해하고 재구성하는 것은 컴퓨터 비전 분야에서 여전히 큰 도전 과제이다. 이 논문은 intr...
우리는 멀티모달 대형 모델에서 교차 모달 불일치를 체계적으로 평가할 수 있도록 두 개의 새로운 벤치마크인 REST와 REST+(Render-Equivalence Stress Tests)를 도입합니다.
텍스트 인식 이미지 복원 (TAIR)은 손상된 텍스트 내용이 포함된 저품질 입력으로부터 고품질 이미지를 복원하는 것을 목표로 합니다. While diffusion models pro...
인간 비디오 시연은 로봇 정책 학습을 위한 풍부한 훈련 데이터를 제공하지만, 비디오만으로는 마스트...에 중요한 풍부한 contact signals를 포착할 수 없습니다.
양자 오류 정정(QEC) 디코딩은 근본적인 정확도‑효율성 트레이드오프에 직면합니다. Minimum Weight Perfect Matching(MWPM)과 같은 고전적인 방법은 …
야간 환경은 카메라 기반 인식에 상당한 도전을 제기합니다. 기존 방법들은 장면 조명에 수동적으로 의존하기 때문입니다. 우리는 Lighting-...
경험적 소프트웨어 엔지니어링(SE) 연구에서, 연구자들은 데이터를 어떻게 처리할지, 어떤 operationalizations를 사용할지, 그리고 어떤…
단일 이미지에서 고품질의 텍스처가 적용된 3D 장면을 생성하는 것은 비전 및 그래픽 분야에서 근본적인 과제로 남아 있습니다. 최근의 image-to-3D generators는 ...
Content-aware layout generation은 그래픽 디자인 자동화에서 중요한 작업으로, 시각적으로 매력적인 요소들의 배치를 원활하게 만드는 데 초점을 둡니다.
머신러닝(ML)은 지속 가능한 고분자 재료를 발견하기 위한 강력한 경로를 제공하지만, 대규모 고품질 데이터의 부족으로 진전이 제한되어 왔습니다,…
Kernel density estimation은 머신러닝, 베이지안 추론, 확률 동역학 및 신호 처리 등 다양한 알고리즘의 핵심 구성 요소입니다....
Large Language Models (LLMs)의 스케일링 법칙은 전통적으로 사전학습 손실과 같은 프록시 메트릭에 초점을 맞추지만, 다운스트림 작업 성능을 예측하는 것은 …
Retrieval-Augmented Generation (RAG)은 검색된 증거에 기반해 출력을 근거함으로써 대형 언어 모델(LLMs)의 사실성을 향상시키지만, 충실도 실패…
시각적 추론은 어려운 작업으로, 정확한 객체 그라운딩과 복잡한 공간 관계에 대한 이해가 모두 필요합니다. 기존 방법들은 두 가지 진영으로 나뉩니다: ...
회전 불변성은 UAV 항공 이미지에서 정밀한 객체 수준 분할에 필수적이며, 대상은 임의의 방향을 가질 수 있고 미세한 …
산업 유지보수는 Internet of Things와 edge computing에 의해 변혁되고 있으며, 실시간 적응형 결정을 요구하는 연속적인 데이터 스트림을 생성합니다.
우주 AI의 부상이 재난 감지, 국경 감시, 기후 모니터링 등과 같은 애플리케이션을 통해 정부와 산업을 재구성하고 있으며, …
Vision-language models (VLMs)은 원격 탐사를 위한 강력한 범용 도구로 부상하고 있으며, 다양한 작업에 걸쳐 정보를 통합하고 ...
실제 데이터셋은 종종 진화하는 데이터 분포를 특징으로 하는 시간적 동역학을 나타냅니다. 이러한 현상을 무시하면, 일반적으로 concept ...
대형 언어 모델(LLMs)은 최근 고품질의 표형 합성 데이터를 생성하는 데 놀라운 성능을 보여주었습니다. 실제로, 두 가지 주요 접근…
Image captioning은 시각 장애인을 돕고, 콘텐츠 관리 시스템을 개선하며, 인간‑컴퓨터 상호작용을 향상시키는 등 많은 분야에서 필수적입니다.
LLM 에이전트는 복잡한 인터랙티브 작업에 널리 배치되어 있지만, 프라이버시 제약으로 인해 동적 환경에서의 중앙 집중식 최적화와 공동 진화를 제한하는 경우가 많다.
개발 지식 질문 응답(Dev Knowledge QA) 작업은 소프트웨어 개발 중 지식 탐색 질문에 자연어 답변을 제공하는 것을 목표로 합니다.
학습 중에 Transformer의 깊이를 점진적으로 늘리는 것은 학습 비용을 줄일 뿐만 아니라, MIDAS가 보여주듯 추론 성능을 향상시킬 수 있습니다.
인간의 성격을 이해하는 것은 personalized recommendation 및 mental health assessment와 같은 웹 애플리케이션에 매우 중요합니다. 기존 연구들은 성격…
AI 기반 코드 생성이 보편화됨에 따라, 연구자들은 코드 LLM의 캘리브레이션을 조사하고 있습니다—즉, 그들의 confidence scores가 충실하게 표현되는지를 보장하기 위해.
머신러닝의 보안 분야 발전에도 불구하고, rule‑based detection은 자원 집약성 때문에 Security Operations Centers에서 여전히 널리 사용됩니다.
대규모 데이터로 사전 학습된 Foundation models는 다양한 도메인에서 놀라운 zero-shot 일반화 능력을 입증했습니다. TabPFN의 성공을 기반으로 ...
문서 그림자 제거는 디지털화된 문서의 선명도를 향상시키는 데 필수적입니다. 고주파 디테일(예: 텍스트 가장자리 및 선)을 보존하는 것은 중요합니다.
이 논문은 연합 학습(FL) 환경에서 다양한 인간 선호와 대형 언어 모델(LLMs)을 정렬하는 과제에 대해 다룹니다, 여기서 st...
우리는 낮은 자원 언어에 대한 사후 훈련(post‑training) 방법을 제안한다. 이 방법은 비유창(disfluent) 보상 모델에 의해 정렬되더라도 언어 모델의 유창성(fluency)을 유지한다. Preference…
최근 몇 년간 고성능 computer vision 모델이 medical imaging에서 눈부신 성공을 거두었으며, 일부 skin lesion classification 시스템은 ...
Automatic Sign Language Recognition (ASLR)은 청각 장애인과 청인 커뮤니티 간의 격차를 메우는 중요한 분야로 부상했습니다. 그러나, 수화‑...
Multigrid methods는 partial differential equations (PDEs)의 discretization에서 발생하는 linear systems를 해결하기 위한 인기 있는 접근법이다.
본 논문에서는 공간 및 시간적 클라우드 워크로드 이동을 통해 탄소, 물, 토지 사용 발자국을 줄일 수 있는 가능성을 조사합니다. 구체적으로, 우리는 p...
이 논문은 바스크어에서 자동 에세이 채점(AES) 및 피드백 생성을 위한 최초의 공개 데이터셋을 소개하며, CEFR C1 수준을 목표로 합니다.
이 논문에서는 재사용 가능하고 CI/CD에 바로 적용할 수 있는 REST API 테스트를 생성하기 위한 LLM 기반 접근법인 RESTifAI를 소개합니다. 이 방법은 happy‑path 접근 방식을 따릅니다. 기존과 달리 …
Distributed systems를 올바르게 설계하고 구현하는 것은 상당히 어려울 수 있습니다. 이러한 시스템은 종종 formal specifications와 함께 제공되지만...
임상 커뮤니케이션은 환자 결과에 핵심적인 역할을 하지만, 환자‑제공자 대화에 대한 대규모 인간 주석은 여전히 노동 집약적이고 일관성이 없으며, ...
ML-Enabled Systems (MLES)는 본질적으로 복잡합니다. 왜냐하면 비즈니스 목표를 달성하기 위해 여러 구성 요소가 필요하기 때문입니다. 이 경험 보고서는 sof...
우리는 QSTN을 소개합니다. QSTN은 설문지 형식 프롬프트로부터 체계적으로 응답을 생성하여 인실리코 설문조사와 ann…을 지원하는 오픈 소스 Python 프레임워크입니다.
효율적인 엣지 캐싱은 지연 시간을 줄이고 현대 네트워크에서 백홀 혼잡을 완화합니다. 전통적인 캐싱 정책인 Least Recently Used (LRU)와 같은…
프로페셔널 농구 경기, 특히 미국 프로농구(NBA)의 결과를 예측하는 것은 코치에게 점점 더 중요해지고 있다.