강력한 LLM은 문제가 아니다 — 이를 “Raw”로 사용하는 것이 빌더를 위한 시스템 엔지니어링 관점이다

발행: 1개월 전 (2025년 12월 23일 오후 05:57 GMT+9)

14 분 소요

원문: Dev.to

Source: Dev.to

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다. 현재는 링크 외에 번역할 내용이 포함되어 있지 않습니다. 필요한 본문을 알려 주시면 바로 도와드리겠습니다.

대형 언어 모델은 이제 더 이상 텍스트를 쓰거나 코드를 생성하는 도구에 불과하지 않다

그리고 바로 여기서 시스템 문제의 시작이다

이 글은 어떤 모델이 더 좋고, 빠르고, 저렴한가에 관한 것이 아니다.
다음과 같은 질문을 던진다:

AI가 단순히 출력을 생성하는 것이 아니라 의사결정에 참여하기 시작할 때, 올바른 시스템 형태는 무엇인가??

오늘날 많은 AI 시스템이 “그대로” 사용되고 있다

여기서 “그대로”는 안전하지 않거나, 비윤리적이거나, 비준수라는 뜻이 아니다. 다음을 의미한다:

우리는 안정적이고, 반복 가능하며, 감사 가능한 결정을 요구하는 환경에 고성능, 비결정론적 추론 시스템을 직접 삽입하고 있다 — 그 사이에 실제 시스템‑레벨 제어 레이어가 없이.

프롬프트 엔지니어링, RAG, 규칙, 그리고 에이전트 프레임워크가 능력을 향상시킨다.
위험이 낮은 작업에서는 이 구분이 거의 중요하지 않다.

LLM은 완성된 시스템이라기보다 엔진에 가깝다

시스템 관점에서 볼 때, LLM은 완전한 제품이라기보다 매우 강력한 엔진에 가깝다. 이들은 다음을 제공한다:

강력한 일반화
유연한 추론 경로
인상적인 표현력

하지만 이들은 본질적으로 다음을 관리하지 않는다:

안정성
권한
책임
장기 상태 일관성

고전적인 컴퓨팅 용어로는:

LLM   ≈ CPU
Prompt≈ instruction stream

이는 자연스럽게 실제 질문을 제기한다: 운영 체제는 어디에 있는가?

실제 위험은 환각이 아니다

환각이 가장 많은 주목을 받지만, 그것이 핵심 문제는 아니다.
더 깊은 위험은 구조적이다.

비재현성

거의 동일한 조건에서도 같은 입력이 서로 다른 결론을 낼 수 있다.

통제 착각

대형 언어 모델은 거의 모든 결과를 설득력 있게 설명할 수 있다.

디버깅 어려움

결정이 중요한 경우, 우리는 다음에 답해야 한다:

이 결정을 촉발한 원인은 무엇인가?
어떤 경로가 선택되었는가?
다시 발생할 것인가?

이러한 질문에 답할 수 없다면, 시스템은 프로덕션 수준이 아니다.

The paradox: LLMs aren’t too weak — they’re too free

The problem isn’t intelligence.
Powerful components without system‑level constraints inevitably lead to:

behavior drift
accumulated risk
unclear accountability

This is not an AI problem.

“AI 운영 체제”가 계속 등장하는 이유

우리는 이전에도 이 패턴을 보았습니다. CPU만으로는 절대 충분하지 않았습니다:

누락된 기능	결과
스케줄링 부재	혼돈
격리 부재	불안정
상태 관리 부재	불안정성

운영 체제는 CPU를 약화시키지 않았습니다.
AI에게는 동등한 과제가 결정 권한입니다.

의사결정 모델은 ML 모델이 아니다

우리가 여기서 말하는 의사결정 모델은 또 다른 학습된 모델을 의미하는 것이 아닙니다.
우리는 시스템 레이어를 의미합니다:

예측하지 않는다
생성하지 않는다
창의적으로 최적화하지 않는다

이 레이어는 오직 하나의 질문에만 답합니다:

현재 시스템 상태에서 이 결정이 허용되는가?

요구사항은 간단하지만 실제로는 드뭅니다:

동일한 조건 → 동일한 결정.

동반 모델은 명확한 경계가 필요합니다

장기간 운영되는 시스템(AI 전화, 로봇, 차량)은 연속성이 필요합니다 — 선호도, 습관, 컨텍스트.
이는 동반 모델이라는 아이디어를 촉진하지만, 엄격한 규칙이 필요합니다:

동반 모델은 상태는 제공할 수 있지만 권한은 절대 제공해서는 안 됩니다.

장기적인 선호도가 의사결정 권한을 얻게 되면, 통제는 약화됩니다.

마무리: 이것은 모델 경쟁이 아니라 시스템 문제입니다

다음 AI 단계는 모델을 더 똑똑하게 만드는 것이 아니라
시스템을 만드는 것입니다:

제어 가능
반복 가능
감사 가능
시간이 지나도 신뢰할 수 있음

결정 커널이 없는 지능은 신뢰성을 확장하지 못하고 위험을 확장합니다.

저자 주

AI Decision Systems · Core Q&A (v1.0)

A: 전통적인 산업 소프트웨어가 뛰어난 경우:

규칙이 명확할 때
경계가 분명할 때
조건을 열거할 수 있을 때

LLM 기반 AI가 강력해지는 경우:

정보가 불완전할 때
요구사항이 모호하게 표현될 때
현실 세계 변수들이 지속적으로 변할 때

이것은 능력상의 이점이며, 엔지니어링 성숙도의 이점이 아닙니다.

Q2: “LLM을 제한한다”는 것이 안전성과 신뢰성을 높인다고 주장합니다. 그렇다면 그들의 힘이 약해지는 건가요?

제한되지 않은 LLM: 강력해 보이지만 일관성 없고 신뢰성 있게 감시할 수 없음.
시스템이 관리하는 LLM: 지능은 유지하되 허용된 조건에서만 작동하고, 결정은 추적·동결·검토 가능.

엔지니어링에서는 제어 없는 능력은 생산 가치를 갖지 못합니다.

Q2 (확장): LLM을 강력한 자동차 엔진에 비유했습니다. 대부분의 사람들이 “LLM을 나체로 사용한다”는 의미인가요? 왜 위험한가요?

고성능 엔진이 변속기, 브레이크, 안정성 제어 없이 작동하면 마력 증가에 따라 위험이 커집니다.
LLM도 마찬가지입니다:

더 강한 추론
더 뛰어난 표현력
문제가 발생했을 때 영향 반경이 확대

위험은 LLM이 실수를 한다는 것이 아니라, 그 실수를 억제하거나 감사할 수 없다는 점입니다.

Q3: PC가 CPU를 활용하려면 Windows가 필요하듯, AI도 OS가 필요하다는 건가요? 그래서 EDCA OS를 만들고 있나요?

CPU는 다음을 관리하지 않습니다:

작업 스케줄링
권한 격리
상태 지속성
오류 복구

이것이 바로 운영체제의 역할입니다.
AI가 의사결정에 참여할 때는 다음과 같은 구조가 필요합니다:

누가 결정할 수 있는가
어떤 조건에서 가능한가
결정이 허용되는가
결정이 재현 가능한가

EDCA OS는 AI를 “더 똑똑하게” 만드는 것이 아니라, 결정을 시스템 동작으로 전환하는 데 초점을 맞춥니다.

Q4: 왜 GPT 클라이언트를 런타임 환경으로 선택했나요? 이것이 여러분만의 표준인가요?

우리는 다음을 우선시합니다:

세션 안정성
내장된 행동 경계
일관된 실행 특성

현재는 소수의 LLM 런타임만이 다음을 진지하게 논의할 수 있습니다:

결정 안정성
반복 가능성
“동일 입력 → 동일 결과” 검증

이는 모델 벤치마크가 아니라 시스템 전제조건입니다.

Q5: 전통적인 정량 시스템과 AI 기반 정량 시스템의 실제 차이는 무엇이며, AI 정량이 어디서 실패하나요?

전통적인 정량 시스템: 고정 전략, 명시적 경로, 감사 및 백테스트 가능한 행동.
AI 정량 시스템은 종종 다음에 시달립니다:
- 결정 드리프트
- 동일 조건에서의 일관성 없는 행동
- 약한 감사 가능성

문제는 지능이 아니라 결정‑안정성 구조가 부족하다는 점입니다.

Q5 (확장): 이것이 scikit‑learn 호환성을 목표로 한다는 뜻인가요, 아니면 포기한다는 뜻인가요?

scikit‑learn은 학습과 예측을 담당합니다.
EDCA‑스타일 결정 모델은 예측을 실제로 적용해도 되는지를 담당합니다.

두 가지는 공존할 수 있습니다: 예측 레이어에 scikit‑learn을 사용하고, 그 위에 EDCA 결정 커널을 씌워 반복성, 감사 가능성, 권한 검사를 강제합니다.

Q6: 왜 CMRE를 구축했나요? 무엇을 검증하려고 했나요?

의료 시나리오는 다음을 결합합니다:

고위험

고책임

과도하게 개입하려는 강한 유혹

시스템이 다음을 수행할 수 있다면:

정보와 판단을 구분
무단 결정을 저항
압박 하에서도 안정 유지

덜 중요한 분야에서도 더 안전해질 것입니다.

Q7: LLM 기반 연구 조교에서 여러분의 돌파구는 무엇인가요?

? Why do you disconnect online retrieval during testing?

온라인 검색은 종종 다음과 같은 문제를 일으킵니다:

검색을 추론으로 오인함

기존 결론을 새로운 발견처럼 가장함

검색을 차단하면 모델이 다음을 수행하도록 강제됩니다:

추론 구조를 드러냄
알려진 제약 내에서 작동
인용 뒤에 숨기지 않고 격차를 드러냄

AI의 연구 역할은 과학자를 대체하는 것이 아닙니다.

Q6 (Extended): 데이터 부족이 더 이상 병목이 아니라면, 과학자에게 여전히 의존하는 부분은 무엇인가요? AI는 인지 편향이 없지 않나요?

과학자가 독특하게 제공하는 것은 데이터 양이 아니라:

어떤 변수가 중요한지

어떤 가정을 도전할 가치가 있는지

어떤 질문을 제기할 가치가 있는지

AI는 추론 공간을 확장합니다. 인간이 연구 방향을 정의합니다.