당신의 모델 선택은 생각만큼 크게 중요하지 않아요... 그리고 그게 실제로 좋은 소식입니다
I’m happy to translate the article for you, but I’ll need the full text you’d like translated. Could you please paste the content (excluding the source line you already provided) here? Once I have the article text, I’ll translate it into Korean while preserving the original formatting, markdown, and any code blocks or URLs.
소개
나는 트위터에서 이 연구에 대한 이야기를 보고 생각을 멈출 수 없었다.
2009년에 신경과학자들은 죽은 대서양 연어를 fMRI 스캐너에 넣고, 인간이 사회적 상황에 있는 사진을 보여주며 그 사람들이 어떤 감정을 느끼는지 판단하도록 요청했다. 스캐너는 뇌 활동을 감지했고, 연어는 생각하는 것처럼 보였다.
분명히 그 물고기는 생각하지 않았다—“활동”은 무작위 잡음에 불과했다. 요점은 적절한 통계적 통제 없이 도구를 사용하면 존재하지 않는 패턴까지도 찾아낸다는 것이다.
LLM 벤치마크의 널 모델
이 문제는 현재 머신러닝 분야에서 일어나고 있습니다. 우리는 적절한 베이스라인을 추가하면 사라지는 모델 개선을 축하합니다. 마치 죽은 물고기에서 뇌 활동을 찾는 것과 같은데, 이제는 이를 아키텍처 혁신이라고 부릅니다.
- 연구자들은 널 모델을 LLM 벤치마크에 제출했습니다. 이 모델들은 입력을 전혀 읽지 않고, 단지 보기 좋은 형식의 텍스트를 생성할 뿐이며, 입력에 관계없이 일정한 응답을 출력합니다.
- 이러한 널 모델들은 AlpacaEval에서 80‑90 %의 승률을 기록했습니다.
“입력을 완전히 무시하는 모델이 90 %에 도달할 수 있습니다. 이는 지능을 측정하는 것이 아니라 마크다운을 얼마나 잘 포맷하는지를 측정하는 것입니다.”
논문 “Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates” (arXiv: 2410.07137)는 리더보드 순위에 기반해 결정을 내리는 모든 사람을 두렵게 만들 것입니다.
비전에서의 지름길 학습
The issue isn’t isolated. The paper “Shortcut Learning in Deep Neural Networks” (arXiv: 2004.07780) shows ImageNet models learn texture instead of shape. Show them an elephant with cat texture, and they confidently say “cat.” They learned the wrong thing entirely, but the benchmark never caught it.
Simple Baselines Beat Complex Methods
Source: …
단순한 접근법을 내세운 논문들이 한 장르를 이루고 있습니다. 이들은 복잡한 방법을 쓰지 않음으로써 최첨단을 지속적으로 앞서고 있습니다.
| Task | What “simple” did | Result |
|---|---|---|
| Zero‑shot learning | Linear regression beats fancy meta‑learning architectures | New records |
| One‑shot learning | Prune irrelevant features from a pretrained model | Beats all complex meta‑learning networks on miniImageNet & tieredImageNet |
| Imbalanced semi‑supervised learning | Basic resampling | 12‑16 % improvement over complex balancing techniques |
패턴은 명확합니다: 이 논문들은 새로운 기법을 발견한 것이 아니라, 다른 사람들이 건너뛰었던 베이스라인을 그대로 구현했을 뿐입니다.
표 형식 데이터: 딥러닝이 항상 최선은 아니다
가장 설득력 있는 증거는 표 형식 데이터에서 나옵니다.
- “Tabular Data: Deep Learning Is Not All You Need” (arXiv: 2106.03253)에서는 최신 딥러닝 모델들을 XGBoost와 비교했는데, XGBoost는 2016년에 발표된 알고리즘으로 대부분의 실무자들이 이미 알고 있는 모델입니다.
- XGBoost가 대부분의 데이터셋에서 승리했으며, 학습 속도도 훨씬 빨랐고, 오직 각 데이터셋을 처음 만든 딥러닝 모델만이 자신의 “홈 터프”에서는 최고의 성능을 보였습니다.
연구진이 최근 4편 논문의 모델들을 11개의 새로운 데이터셋에 적용해 본 결과, 모든 “새로운 아키텍처”는 자신이 처음 적용된 데이터셋에서만 우수했으며 다른 곳에서는 모두 실패했습니다.
“그건 혁신이 아니라, 신경망을 이용한 p‑해킹입니다.”
딥러닝이 도움이 될 때
딥러닝은 표 형식 데이터에서 특정 경우에 앞서 나갈 수 있다:
- 수동 피처 엔지니어링이 불가능한 대규모 데이터셋(≥ 1 백만 행).
- 복잡한 피처 상호작용을 자동으로 학습해야 하는 상황.
하지만 이러한 시나리오는 과대광고만큼 흔하지 않다. 대부분의 표 형식 문제에서는 좋은 피처를 가진 XGBoost가 나쁜 피처를 가진 어떤 딥 모델보다 우수하다.
Andrew Ng: “데이터 품질을 향상시키는 것이 더 나은 모델 아키텍처를 개발하는 것보다 자주 더 효과적이다.”
Microsoft의 Phi 모델은 이를 입증했다: 고품질 합성 교과서로 학습된 작은 모델이 잡음이 많은 웹 스크랩으로 학습된 거대한 모델보다 성능이 뛰어났다—이는 아키텍처 때문이 아니라 데이터 때문이었다.
더 큰 그림
패턴은 어디서나 적용됩니다:
- XGBoost + 좋은 특징은 나쁜 특징을 가진 어떤 딥 모델보다 우수합니다.
- GPT‑3.5에서 좋은 프롬프트는 GPT‑4에서 나쁜 프롬프트보다 더 좋습니다.
- 깨끗한 데이터는 새로운 아키텍처보다 우수합니다.
우리가 이를 무시하는 이유는 무엇일까요? *“우리는 데이터를 더 깨끗이 정제했다”*는 최우수 논문상을 받지 못하지만, *“새로운 주의 메커니즘과 아키텍처 혁신”*은 받기 때문입니다.
“Troubling Trends in Machine Learning Scholarship” (arXiv: 1807.03341)는 이 문제를 문서화합니다:
- 논문들은 실제로는 더 나은 하이퍼파라미터 튜닝에 불과한 아키텍처 혁신을 주장합니다.
- 저자들은 튜닝된 모델을 튜닝되지 않은 베이스라인과 비교하고 승리를 선언합니다.
- 그들은 자신의 접근법이 작동하는 데이터셋만 선택합니다.
- 그들은 약점을 드러낼 수 있는 간단한 베이스라인을 생략합니다.
- 그들은 사소한 아이디어를 심오하게 보이게 수학을 사용합니다.
우리는 원 논문 밖에서는 재현되지 않는 “혁신”에 빠져 허우적거리고 있습니다.
AI 실무자를 위한 실용적인 요점
-
최신 트랜스포머를 사용하기 전에 강력한 베이스라인부터 시작하세요.
- 표형 데이터 → XGBoost.
- 텍스트 분류 → TF‑IDF + 로지스틱 회귀.
- 코드 검색 → 코사인 유사도.
-
통제할 수 있는 부분을 직접 관리하세요. 모델 선택은 일시적이지만, 데이터 파이프라인과 평가 프레임워크는 오래 지속됩니다.
-
데이터 품질에 투자하세요.
- 깨끗하고 일관된 라벨링.
- 중복 제거.
- 클래스 불균형 해결.
- 적절한 null 처리 추가.
-
프롬프트 엔지니어링을 마스터하세요. 이는 모델에 구애받지 않으며 Claude, GPT, Gemini 등 다양한 모델에 적용됩니다.
- 문제를 단계별로 나누기.
- 명확한 예시 제공.
- 구조화된 출력 사용.
- 실패를 기반으로 반복 개선.
-
적절한 통제 실험을 추가하세요. 죽은 연어 연구가 신경과학자들에게 영가설을 검증하도록 가르친 것처럼, 여러분의 머신러닝 실험에서도 동일하게 적용하십시오.
최종 생각
만약 당신의 모델이 단순하고 잘 설계된 베이스라인을 설득력 있게 이겨내지 못한다면, 사실상 죽은 물고기를 보는 겁니다. 데이터, 베이스라인, 그리고 엄격한 평가에 집중하면 “아키텍처 과대광고”의 함정을 피할 수 있습니다.
- 당신의 개선이 의미 있을 만큼 충분히 큰가?
- 단순 베이스라인을 이기는가?
- 튜닝된 모델끼리 비교하고 있는가, 아니면 튜닝된 모델과 기본 모델을 비교하고 있는가?
- 훈련 데이터 분포를 넘어선 곳에서도 작동하는가?
이러한 제어를 추가했을 때 당신의 성과가 사라진다면, 당신은 잡음에 환호하고 있는 것입니다.
그 해석 가능성 논문도 같은 점을 지적합니다. 해석 도구가 무작위 초기화된, 학습되지 않은 모델에서 설득력 있는 패턴을 찾는다면, 의미를 찾은 것이 아니라 통계적 잡음을 찾은 것입니다. (arXiv:2512.18792)
주목도 맵은 무작위 네트워크에서도 그럴듯해 보입니다. 희소 오토인코더는 무작위 트랜스포머에서 “해석 가능한 특징”을 찾아냅니다. 벤치마크 점수는 널 모델로도 향상됩니다. 아키텍처는 제대로 튜닝되지 않은 베이스라인을 이깁니다.
최신 모델 릴리스를 쫓기 전에, 단순 베이스라인을 시도해 보세요. 데이터를 정비하고, 전이 가능한 프롬프트에 투자하며, 평가에 제어를 추가하세요.
내부 접근 권한이나 최신 모델이 필요하지 않습니다. 당신이 소유해야 할 것은 데이터, 프롬프트, 검색, 그리고 평가입니다. 모델은 시스템에서 가장 흥미롭지 않은 부분인 경우가 많으며, 그래서 가장 많은 과대광고를 받는 것입니다.
모델 선택은 생각만큼 중요하지 않습니다. 이를 받아들인다면, 실제로 중요한 것들에 집중할 수 있습니다.