LLM은 내가 생각했던 것과 다르다
Source: Dev.to
Misconceptions About LLMs
나는 “LLM”이라는 말을 어디서든 보게 되었다.
처음엔 이것이 단지 ChatGPT의 또 다른 멋진 이름이라고 생각했으며, 그 가정 때문에 모든 것이 느려졌다.
내 머릿속에서 LLM은:
- 마법 같은 AI 두뇌
- 연구자들만 만드는 것
- 특정 작업에만 밀접하게 결합된 것
처럼 보였다.
그것도 어느 정도 타당해 보였다. “Large Language Model”이라는 말은 위압적으로 들리지만, 이 사고 모델이 마찰을 일으켰다:
- 앱 안에서 어디에 들어맞는지 몰랐다
- 실제로 내가 사용하고 있는 부분이 무엇인지 알 수 없었다
모든 것이 필요 이상으로 복잡하게 느껴졌다.
The Shift in Thinking
LLM을 제품이나 인프라로 생각하는 것을 멈췄을 때 전환이 일어났다. LLM은 ChatGPT가 아니다; ChatGPT는 LLM 위에 구축된 제품이다. GPT와 Gemini 같은 모델이 ChatGPT와 같은 제품에 동력을 제공한다. 이 한 가지 구분이 AI에 대한 내 사고 방식을 바꾸었다.
핵심적으로 LLM은 다음 단어를 예측하는 일을 매우 잘하도록 설계된 시스템이다. 인간처럼 언어를 이해하는 것이 아니라— 그래서 지능적으로 보이는 것이다.
Two Key Characteristics
-
“Large”는 크기가 아니라 데이터 양을 의미
LLM은 방대한 데이터셋(책, 기사, 웹사이트 등)으로 학습되어 언어의 패턴을 포착한다. -
범용성
하나의 작업을 위해 만든 전통적인 ML 모델과 달리, 같은 엔진이 다음을 구동할 수 있다:- 채팅 인터페이스
- 코드 어시스턴트
- 요약기
- 설명기
같은 엔진, 다른 제품.
LLMs vs. Applications
프론트엔드 도구를 생각해 보라: React는 제품이 아니라 제품을 구동하는 라이브러리이다. 같은 원리다:
- LLM은 앱이 아니다 – 앱 뒤에 있는 엔진이다.
- 사용자가 체험하는 것은 전적으로 다음에 달려 있다:
- 인터페이스
- 제약조건
- 위에 얹힌 지시사항
Under the Hood
내부적으로 LLM은 트랜스포머 아키텍처를 사용해 시퀀스에서 다음 단어를 반복적으로 예측함으로써 동작한다. 트랜스포머를 이해할 필요는 LLM을 사용할 때 없다.
나는 그들이 무엇인지 오해했기 때문에 위축되었다. 한 번 그들을 강력한 예측 엔진으로 바라보게 되면 접근하기 쉬워졌다.