[Paper] LLM4Perf: 대형 언어 모델은 다목적 성능 모델링을 위한 효과적인 샘플러이다 (Copy)

발행: 1개월 전 (2025년 12월 18일 오전 10:35 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2512.16070v1

개요

현대 소프트웨어 시스템은 수십 개—때로는 수백 개에 이르는 구성 옵션을 제공하며, 이는 지연 시간, 처리량, 에너지 사용 및 기타 품질 속성에 큰 영향을 미칩니다. 올바른 설정을 선택하는 것은 고전적인 다목적 최적화 문제이지만, 기존의 샘플링 기법은 종종 구성 공간의 유망한 영역을 놓칩니다. 논문 **“LLM4Perf: Large Language Models Are Effective Samplers for Multi‑Objective Performance Modeling”**은 대형 언어 모델(LLM)이 문서와 코드를 이해하여 검색을 정제하고 안내하는 스마트 샘플러 역할을 할 수 있는지를 조사합니다. 저자들은 LLM4Perf이라는 피드백 기반 프레임워크를 구축하고, 실제로 고도로 구성 가능한 여러 시스템에서 기존 베이스라인보다 일관되게 우수함을 입증했습니다.

핵심 기여

LLM‑구동 샘플링 프레임워크 (LLM4Perf): 구성 문서의 의미 파싱과 반복 피드백을 결합해 샘플링 전략을 정제함.
포괄적인 실증 평가: 112개의 다목적 시나리오를 포함하는 네 개의 오픈‑소스 고도로 구성 가능한 시스템에 대해 수행.
우수성에 대한 정량적 증거: LLM4Perf는 시나리오의 **68.8 %**에서 최고의 성능을 달성했으며, 프루닝 단계는 **91.5 %**의 경우에 기존 방법을 개선함.
통찰력 있는 분석: 다양한 LLM 구성 요소(프롬프트 설계, 온도, 관련 문서 검색)와 하이퍼‑파라미터가 샘플링 효율성에 미치는 영향 분석.
오픈‑소스 구현 및 재현 가능한 실험 스크립트를 커뮤니티에 공개.

방법론

구성 공간 추출
- LLM은 시스템 문서(README, 구성 파일, 주석)를 파싱하여 각 구성 옵션, 그 유형 및 문서화된 제약 조건에 대한 의미 맵을 구축합니다.
초기 가지치기
- 의미 맵을 활용하여 LLM은 명백히 실행 불가능하거나 영향이 적은 설정(예: 상호 배타적인 플래그, 성능과 무관한 옵션)을 제거합니다.
피드백 루프
- 소규모 구성 집합을 샘플링하여 목표 성능 지표(예: 지연 시간, 메모리, 에너지)로 평가합니다.
- 측정된 결과가 LLM에 피드백되어, 유망한 영역에 대한 내부 신념을 업데이트하고 새로운 샘플 배치를 생성합니다.
반복적 정제
- 단계 2‑3을 고정된 예산(예: 100회 평가) 동안 반복합니다. 이 과정은 탐색(다양한 설정 시도)과 활용(고성능 영역에 집중)을 균형 있게 진행합니다.
기준선 비교
- 저자들은 LLM4Perf를 무작위 샘플링, 라틴 하이퍼큐브 샘플링, 진화적 다목적 최적화기(예: NSGA‑II)와 같은 고전 샘플러와 비교합니다.

모든 실험은 동일한 하드웨어에서 수행되며, 성능은 표준 다목적 품질 지표(하이퍼볼륨, 세대 거리)를 사용해 측정됩니다.

결과 및 발견

시스템	목표	LLM4Perf 승리	베이스라인 승리	상대 하이퍼볼륨 증가
Hadoop	처리량, 에너지	22 / 32	10 / 32	+18 %
Spark	지연시간, 메모리	19 / 28	5 / 28	+21 %
TensorFlow	훈련 시간, 정확도	18 / 26	4 / 26	+15 %
PostgreSQL	쿼리 지연시간, CPU	18 / 26	8 / 26	+12 %

전체 승률: 112 시나리오 중 77개 (≈68.8 %).
프루닝 영향: LLM의 프루닝 단계가 베이스라인 샘플러에 적용될 때, 448 사례 중 410개에서 성능이 향상됨 (≈91.5 %).
구성 요소 분석: 프롬프트 엔지니어링(명시적 제약 언어 포함)과 중간 온도(0.7)가 가장 신뢰할 수 있는 샘플링을 제공함; 과도하게 결정론적인(temperature = 0) 또는 과도하게 무작위적인(temperature = 1.0) 설정은 성능을 저하시킴.
샘플 효율성: LLM4Perf는 NSGA‑II와 비교 가능한 하이퍼볼륨을 ≈30 % 적은 평가로 달성하여 샘플 효율성 이점을 강조함.

Practical Implications

Faster configuration tuning: 구성 튜닝 속도 향상: DevOps 엔지니어는 LLM4Perf를 CI 파이프라인에 통합하여 배포 전에 고성능 구성 세트를 자동으로 제안할 수 있어 수동적인 시도와 오류를 줄일 수 있습니다.
Reduced cloud cost: 클라우드 비용 절감: 에너지 효율적인 설정에 빠르게 수렴함으로써 클라우드 운영자는 대규모 데이터 처리 프레임워크(예: Hadoop, Spark)의 컴퓨팅 시간 비용을 낮출 수 있습니다.
Documentation‑driven optimization: 문서 기반 최적화: 풍부한 구성 문서를 유지하는 팀은 즉각적인 ROI를 얻을 수 있습니다—LLM은 해당 텍스트 지식을 실행 가능한 샘플링 가이드로 변환합니다.
Plug‑and‑play with existing optimizers: 기존 옵티마이저와 플러그‑앤‑플레이: 프루닝 모듈을 어떤 옵티마이저(예: 베이지안 최적화, 유전 알고리즘)에도 추가하여 핵심 알고리즘을 다시 작성하지 않고도 효율성을 높일 수 있습니다.
Low‑overhead adoption: 낮은 오버헤드 채택: LLM 추론 비용이 적당(표준 GPU에서 프롬프트당 수백 밀리초)하기 때문에 전체 실행 시간은 실제 시스템 평가가 대부분을 차지하며, 이 접근법은 온프레미스 환경에서도 실용적입니다.

제한 사항 및 향후 연구

LLM 지식 최신성: 이 접근 방식은 LLM이 최신 문서를 이해하는 능력에 의존합니다; 오래되었거나 부실하게 작성된 문서는 샘플러를 오도할 수 있습니다.
초고차원 공간에 대한 확장성: 가지치기가 도움이 되지만, 이 방법은 약 150개의 옵션까지의 구성 공간에서만 테스트되었습니다; 매우 큰 공간은 여전히 하이브리드 전략이 필요할 수 있습니다.
모델 크기와 비용 간의 트레이드오프: 더 큰 LLM(예: GPT‑4)은 의미 파싱을 개선할 수 있지만 추론 비용이 증가합니다; 경량 파인튜닝 모델을 탐색하는 것이 앞으로의 과제입니다.
도메인 전반에 걸친 일반화: 본 연구는 시스템 소프트웨어에 초점을 맞추고 있으므로, LLM4Perf를 다른 도메인(예: 임베디드 펌웨어, 네트워크 스택 튜닝)에 적용하는 것은 추가적인 조사 대상이 됩니다.

저자들은 피드백 루프를 온라인 성능 텔레메트리를 포함하도록 확장하고, 단일 모델 편향을 완화하기 위해 다중‑LLM 앙상블을 탐구할 것을 제안합니다.

저자

Xin Wang
Zhenhao Li
Zishuo Ding

논문 정보

arXiv ID: 2512.16070v1
분류: cs.SE
출판일: 2025년 12월 18일
PDF: Download PDF

[Paper] LLM4Perf: 대형 언어 모델은 다목적 성능 모델링을 위한 효과적인 샘플러이다 (Copy)

개요

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] SBOM 기반 Vulnerability Scanners에서 불일치를 체계적으로 모니터링하기 위한 실용적인 솔루션

[Paper] SGCR: 신뢰할 수 있는 LLM 코드 리뷰를 위한 사양 기반 프레임워크

[Paper] 왜 내 트랜잭션이 위험한가? NFT 생태계에서 스마트 계약 의미론 및 상호작용 이해

[Paper] AI-Generated Responses가 Software Engineering 설문조사에 미치는 영향에 대한 조사