[논문] LLM이 인간이 참여한 개발보다 더 나은 객체지향 설계를 만들 수 있을까?

발행: 3주 전 (2026년 5월 19일 PM 11:32 GMT+9)

8 분 소요

원문: arXiv

출처: arXiv - 2605.19901v1

개요

본 연구는 도발적인 질문을 제기한다: 현대 대형 언어 모델(LLM)이 객체 지향 소프트웨어를 인간보다 더 잘 설계할 수 있을까? LLM 붐 이전에 만든 Java 프로젝트, 이후에 만든 프로젝트, 그리고 완전히 LLM이 생성한 프로젝트를 비교함으로써, 저자들은 AI‑지원 코딩이 빛을 발하는 영역과 아직 부족한 영역을 밝혀낸다.

주요 기여

3가지 저작 방식 비교 – 인간 전용(PreAI), 인간 보조(PostAI), 완전 AI 생성(PureAI) Java 프로젝트.
포괄적인 OOD 평가 – 클래스 수, 상속 깊이, 결합도, 응집도 등 메트릭과 코드 냄새 밀도, 도메인 모델 충실도 측정.
‘과도한 단순화’에 대한 실증적 증거 – PureAI 코드는 더 깔끔하지만 필수적인 추상화를 놓치는 경우가 많아 책임 분리가 약해진다.
AI 이후 인간 실천에 대한 통찰 – PostAI 프로젝트가 AI 스타일로 점점 이동하는 모습을 보여, 개발자들이 이미 AI‑주도 설계 지름길을 채택하고 있음을 시사한다.
안전한 AI‑지원 OOD를 위한 가이드라인 – 인간 설계 전문성을 언제, 어떻게 개입시켜야 하는지에 대한 권고.

방법론

데이터셋 선정 – 동일 사양이지만 서로 다른 학기에 진행된 대학원 수준 Java 과제 두 집단을 PreAI(LLM 이전)와 PostAI(LLM 이후) 그룹으로 사용.
PureAI 생성 – 동일 과제 프롬프트를 최신 LLM 세 종류(GPT‑4, Claude, Gemini 등)에 입력해 인간 편집 없이 완전한 다중 클래스 솔루션을 생성.
메트릭 스위트 –
- 구조적 OOD 메트릭: 클래스 수, 상속 깊이, 순환 복잡도, 객체 간 결합도, 응집도 결여.
- 코드 냄새 밀도: KLOC당 일반적인 냄새(God Class, Feature Envy 등) 발생 빈도.
- 도메인 모델 검증: 과제의 개념적 엔티티와 클래스 매핑을 수동으로 수행해 추상화 품질을 평가.
통계 분석 – 세 저작 조건 간 유의성을 평가하기 위해 쌍별 Wilcoxon 부호 순위 검정 적용.

결과 및 발견

항목	PreAI	PostAI	PureAI
코드 냄새 밀도	가장 높음	PreAI보다 낮지만 PureAI보다 높음	가장 낮음
전체 규모(LOC)	가장 큼	PreAI보다 약간 작음	가장 작음
복잡도(평균 순환 복잡도)	가장 높음	중간 수준	가장 낮음
결합도	가장 높음	감소, PureAI에 근접	가장 낮음
추상화 품질	책임 분리 강함	일부 추상화 손실 시작	핵심 추상화 자주 누락(과도한 단순화)
도메인 모델 충실도	사양에 가장 가깝게 구현	약간 이탈	도메인 개념을 종종 생략하거나 병합

해석:

LLM은 냄새가 적고 결합도가 낮은 깨끗한 코드를 만드는 데 뛰어나지만, 설계를 과도하게 단순화하여 정당한 추상화를 단일 클래스에 압축하는 경향이 있다.
인간 보조 프로젝트(PostAI)는 AI의 “깨끗한 코드” 습관을 일부 받아들였지만, PreAI 작업에서 보였던 미묘한 도메인 모델링은 여전히 유지한다.
명확한 트레이드오프가 존재한다: AI는 보일러플레이트를 빠르게 생성하고 저수준 결함을 줄일 수 있지만, 아직은 사려 깊은 분해와 책임 할당을 대체하지 못한다.

실용적 함의

AI는 초안 도구, 설계자는 아니다: LLM을 이용해 스켈레톤이나 보일러플레이트를 만든 뒤, 개발자가 클래스 계층을 검토·보강한다.
코드 리뷰 초점 전환: 팀은 냄새 탐색보다 아키텍처 문제(추상화, 책임 분배)에 더 많은 리뷰 시간을 할당할 수 있다.
교육 및 온보딩: 신규 개발자는 AI‑생성 스캐폴딩으로 시작해, 반복적인 리팩터링을 통해 설계 의도를 학습한다.
툴링 통합: IDE 플러그인으로 “과도하게 단순화된” 설계(예: 복잡한 도메인에 비해 비정상적으로 낮은 상속 깊이)를 감지해 LLM 제안을 보완한다.
위험 완화: 안전‑중요 혹은 규제가 엄격한 분야에서는 AI‑생성 OOD를 수용하기 전에 인간‑인‑루프 검증 단계를 반드시 적용한다.

제한점 및 향후 연구

단일 과제 범위: 결과는 하나의 Java 과제에 기반하므로, 다양한 언어·도메인에 대한 광범위 벤치마크가 필요하다.
LLM 버전: 연구에 사용된 세 모델은 현재 시점의 최신 모델이며, 급속한 모델 진화가 깨끗함과 추상화 간 균형을 바꿀 수 있다.
인간 요인: PostAI 집단의 “인간 참여” 실천이 엄격히 통제되지 않아 개발자 숙련도 차이가 결과에 영향을 미쳤을 가능성이 있다.
향후 방향:
- 대규모 오픈소스 프로젝트로 확대.
- LLM이 여러 설계 대안을 제시하고 인간이 선택하는 하이브리드 워크플로 조사.
- 구조적 냄새를 넘어 설계 의도를 포착하는 메트릭 개발.

핵심 요약: LLM은 깔끔한 Java 코드를 작성하는 데 이미 능숙하지만, 견고하고 잘 추상화된 객체 지향 설계를 보장하려면 인간의 설계 안목이 여전히 필요하다. AI가 반복적인 작업을 담당하고 설계자는 루프에 남아 있는 방식이 가장 생산적인 접근법으로 보인다.

저자

Zushuai Zhang
Elliott Wen
Ewan Tempero

논문 정보

arXiv ID: 2605.19901v1
분류: cs.SE
발표일: 2026년 5월 19일
PDF: PDF 다운로드

[논문] LLM이 인간이 참여한 개발보다 더 나은 객체지향 설계를 만들 수 있을까?

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한점 및 향후 연구

저자

논문 정보

관련 글

[Paper] Java 가상 머신에 대한 오해를 일으키는 마이크로벤치마크

[Paper] JEDI: 선언형 및 명령형 쿼리의 Java 평가

[Paper] MISRust: MISRA-C++ 코딩 가이드라인을 Rust 프로그래밍 언어에 매핑

[Paper] MileStone: 그래프 기반 IR 수준 최적화를 위한 다목적 컴파일러 단계 순서 프레임워크