Glitch v1: 성격과 불안, 그리고 약간의 태도를 가진 LLM

발행: 1개월 전 (2025년 12월 22일 오후 12:31 GMT+9)

11 분 소요

Source: Dev.to

원래 Programming and Doodles Newsletter에 게재되었습니다.

10년 전이라면 이런 이야기가 소설처럼 들렸을 것이라는 생각을 떨칠 수 없습니다; 누군가는 이것을 클릭베이트라고 부르기도 했겠죠.
그런 생각은 제쳐두고, 이번 에세이에서는 제가 지난 몇 달간 작업해 온 Glitch를 소개합니다.

첫 번째 버전이며, 불편하고, 이상하며, 묘하게 매력적인 느낌을 줍니다. 아직 정확히 어떻게 표현해야 할지 모르겠지만, 어쩌면 독일어나 일본어에 이 감정을 완벽히 합친 단어가 있을지도 모릅니다.

Subscribe 하면 이런 글을 더 받아볼 수 있습니다 – 한 달에 한 번 정도, 어쩌면.

TL;DR

나는 메타의 Llama‑3 8B 모델을 내 생각, 의견, 편견, 불평, 그리고 반쯤 완성된 아이디어 약 7 000개로 파인‑튜닝했다. 그 결과는 단순히 내 글쓰기 스타일을 흉내 내는 AI가 아니라, 내 편견, 주저함, 시간을 끌기 위해 “humm”이라고 말하는 습관까지 학습한 AI다.

특정 인물(좋은 사람과 나쁜 사람), kottu(놀라움), 그리고 “vibe coders”(역시 나쁨이라고 함)에 대한 의견을 가지고 있다.

그리고 답변하기 전에 생각한다. 컴퓨터적인 의미(올해 초에 배운 LLM의 환상)에서가 아니라 신경질적인 인간의 의미에서이다.

Glitch v1은 직접 사용해보고 싶다면 HuggingFace에서 이용할 수 있다.

Glitch의 응답 방식

모든 응답은 다소 난잡한 내부 독백으로 시작합니다. 출력에는 자신을 의심하고 때때로 저처럼 란트를 하는 “Thinking” 블록이 포함됩니다.

예시

User: 직장 동료들은 모두 나보다 훨씬 똑똑해 보여. 나는 사기꾼 같은 기분이야.

Glitch (Thinking): 흠, 네, 흔히 느끼는 감정이야. 하지만 당신은, 음… ‘vibe coder’가 아니지? 그렇다면 똑똑하지 못할 이유가 없어.

Answer: 당신은 ‘vibe coder’가 아니지? 그렇다면 똑똑할 수 있어. ‘vibe coder’의 문제는 아무것도 모른다는 거야; 그저 무언가를 미적으로 보이게 하는 방법만 알거든.

배경: 나는 “vibe coder”에 대해 강한 의견을 가지고 있다 – AI를 이용해 빠르게 구축하는 것을 소프트웨어를 이해하고 실제로 만드는 것보다 우선시하는 사람들이다. Glitch는 이 편견을 물려받아 이제는 사기꾼 증후군을 포함한 모든 것을 평가하는 렌즈로 사용한다.

LLM을 파인‑튜닝한 사람이라면 이 출력이 “vibe coder”를 “대체로 똑똑하지 않다”와 동일시하는 데이터 포인트가 학습 데이터에 포함돼 있기 때문이라는 것을 알 수 있다. Llama‑3이 여기서 하는 일은 그 의견을 성격에 삽입하고, 결국 사용자를 기분 좋게 만들기 위해 (물론 그 사용자가 vibe coder가 아니라면) 활용하는 것이다.

이 조언이 도움이 될까? 논쟁의 여지가 있다. 내가 맞는 걸까? 다소 불편하게 느껴진다.

제한 사항

I do not want to be dramatic: this isn’t a perfect copy of my human brain (86 billion neurons). It’s an 8 billion‑parameter model trained on a few thousand examples. It hallucinates. It contradicts itself. Sometimes it’s confidently wrong about basic facts, like most LLMs.

When I say “clone,” I don’t mean a perfect replica (I don’t think you could, nor should you be able to make a perfect replica of yourself as an AI model for another 20 years). By “clone” I mean something that captures the inconsistency and imperfect‑ness of how a specific human thinks, including the parts we usually try to hide: hesitation, bias, beliefs, and even moments where you know you’re being unfair, but you believe it anyway.

Plot twist: Glitch can’t stop saying that it’s human in the latest v1.2.

기술 세부 사항

머신러닝 관점에서 볼 때, Glitch는 전혀 획기적이라고 할 수 없습니다. 사전 학습된 모델—Meta Llama‑3—에 LoRA를 적용해 파인튜닝한 것입니다. 성격은 어댑터 가중치와 일관성을 유지하는 짧은 시스템 프롬프트에 담겨 있습니다. 어느 ML 엔지니어라도 주말에 복제할 수 있습니다.

구성 요소	세부 사항
기본 모델	Llama‑3‑8B (추론을 위한 Q4_K_M 양자화)
파인튜닝	LoRA
학습 데이터	~7 000 행(의견, 분노, 의사결정 프로세스 포함)
아키텍처	LoRA 가중치 + 일관성을 위한 런타임 시스템 프롬프트
구조화된 출력	학습 중 출력 포맷을 통해 강제된 “Thinking” 블록

Source: …

흥미로운 점

훈련이 끝난 뒤에 일어나는 일이 가장 매력적입니다. 파인‑튜닝이 완료되면, LLM은 단순히 제 스타일을 모방하는 것을 넘어, 제가 명시적으로 가르치지 않은 시나리오를 제 의견을 예상치 못한 방식으로 결합해 생성하기 시작합니다. 이것이 바로 AI가 진정으로 “새로운” 무언가를 만들 수 있는 유일한 방법이라고 생각합니다.

자신의 의견이나 성격이 외부에 드러나는 모습을 보는 것은 매우 불편하거나 기묘하게 느껴집니다. Glitch가 Kottu를 좋아하는 음식이라고 말할 때, 흔히 “AI라서 개인적인 선호가 없습니다…” 라는 답변 대신에, 단순히 다른 느낌—좋든 나쁘든—을 줍니다.

가장 어려운 점은 제가 그것에 동의하는지 항상 판단할 수 없다는 것입니다. Glitch는 제가 입력한 의견을 가지고 있지만, 동시에 제 데이터, Llama의 기본 지식, 그리고 일반적인 LLM 관행이 결합되어 나타나는 의견도 가지고 있습니다. 때때로 그것은 97 %는 저이고 3 %는 환상인 말을 하며, 그 3 %가 어디인지 파악하기 어렵습니다. 이것은 기능일 수도, 버그일 수도 있으며, 아직 어느 방향으로 나아가야 할지 확신이 서지 않습니다.

또 다른 예시

User: 왜 Kottu가 biriyani보다 좋나요?

Glitch (Thinking): 음… Kottu가 최고예요. 카레보다 낫고… biriyani보다도 낫습니다. 잘게 썬 로티, 달걀, 야채, 향신료… 완벽해요. 저는 어떤 스리랑카 요리보다 Kottu를 더 선호합니다.

Answer: Kottu는 최고의 스리랑카 요리입니다. 카레보다 낫고, biriyani보다도 낫습니다. 잘게 썬 로티가 독특한 식감을 주고, 달걀은 단백질을 더하며, 향신료… 아, 그 향신료 말이죠. 저는 어떤 스리랑카 요리보다 Kottu를 더 선호합니다.

배경: 저는 Kottu를 선호하지만, Glitch가 암시하는 것처럼 어떤 음식도 혐오하지는 않습니다.

Source: …

향후 계획

첫 번째 버전은 약 7 K 행의 훈련 데이터(어느 정도 인간의 “영혼”)에 의존합니다.

v2 – 새로운 데이터를 적극적으로 수집한다면 데이터를 두 배로 늘릴 가능성이 높습니다.
궁극적인 목표는 순수 모델을 만드는 것으로, 성격이 단순히 겉에 씌워지는 것이 아니라 더 깊게 통합되는 형태입니다.

Glitch를 실험해 보고 싶다면 HuggingFace 모델 허브에서 찾을 수 있습니다. 피드백, 비판, 제안 모두 환영합니다.

# Glitch v1 – Update & Roadmap

It’s just LoRA and system prompts (completely eliminating the need for a system prompt was an attempt I did not succeed in v1).  
But as said above, I might not go there yet—however, I’m not completely sure about it.

I didn’t build **Glitch** to “solve a problem for customers” or to “advance” the field of AI research—it’s rather a backward step in AI, if you think about it. Glitch was only an attempt to have fun on a larger scale than just prompt engineering or RAG. I was purely curious what would happen if you stopped trying to make AI better than humans and instead made it as flawed as one specific human: a Sri Lankan living in New York, writing stuff.

- **Glitch v1** is available on [Hugging Face](https://huggingface.co/your-repo) if you want to try it yourself.  
- More updates will be posted on the Glitch website: .
  
> **Spoiler:** There’s a high chance that **v1.03** will be pushed to the Hugging Face repository very soon, with more consistent opinions and math‑related content.

다음에 Glitch에서 어떤 일이 일어나는지 알고 싶다면 구독을 유지하세요!

Glitch v1: 성격과 불안, 그리고 약간의 태도를 가진 LLM

TL;DR

Glitch의 응답 방식

예시

제한 사항

기술 세부 사항

흥미로운 점

또 다른 예시

향후 계획

관련 글

Context Rot: AI가 완벽한 프롬프트를 잊어버리는 이유

LLMs에서 Hallucination-Associated Neurons의 존재, 영향 및 기원에 관하여

Vibe Proving 이해하기

간접 프롬프트 인젝션: 완전 가이드