왜 Google의 AI는 Google(또는 다른 어떤 것)도 맞춤법을 못 쓰는가
Source: TechCrunch
Google에 P가 몇 개 있나요? Google에 따르면 두 개입니다.
또한 Google의 AI Overview는 “‘poop’이라는 단어에 정확히 1개의 ‘r’이 있다”고 말하고, journalism이라는 단어에 ‘d’가 두 개 있다고 하지만, 실제로는 j‑o‑u‑r‑n‑a‑d‑i‑s‑m이라고 철자를 잘못 적었습니다. Google은 미국 대통령의 성에 P가 하나 있다는 것은 확인했지만, t‑r‑p‑u‑m이라고 잘못 표기했습니다.
Google의 AI‑주도 검색 개편이 부진할 것이라는 예측을 위해 예언자가 될 필요는 없었습니다. Google이 처음으로 AI Overview를 검색에 추가했을 때, 이 기능은 The Onion과 Reddit의 풍자 게시물을 인용하며 사람들에게 바위를 먹고 피자에 풀을 바르라고 조언했습니다.
이번에는 29년 된 대표 제품을 생성형 AI 중심으로 전환하려는 Google의 의지가 강화되면서, 또다시 발을 헛디디는 것이 놀랍지 않습니다.
“단어 안에서의 카운팅은 LLM에게 알려진 과제이며, 우리는 이 특정 문제를 해결하기 위해 노력하고 있습니다,” 라고 Google은 TechCrunch에 이메일 성명서에서 밝혔습니다.
왜 LLM은 맞춤법에 어려움을 겪는가
이러한 기본적인 맞춤법 오류는 익숙하게 느껴질 수 있습니다. 챗봇 및 기타 텍스트 생성기를 구동하는 인공지능인 대형 언어 모델(LLM)은 맞춤법을 이해하도록 설계되지 않았습니다. 몇 년 동안 기업이 새로운 AI 모델을 공개할 때마다 strawberry라는 단어에 ‘r’이 몇 개 들어 있는지 물어보라는 농담이 이어져 왔습니다. 몇 초 만에 앱을 코딩하거나 수십 년 동안 수학자들을 난감하게 만든 문제를 해결할 수 있는 이러한 AI 모델은 맞춤법 측면에서는 유치원생 수준에 불과합니다.
Google의 AI Overview 문제는 단순한 맞춤법 실수를 넘어섭니다. Google은 지난 주에 “disregard”라는 단어를 검색하면 사전 정의처럼 보이지만 실제로는 “이해했습니다. 새로운 프롬프트나 질문이 있으면 알려 주세요!”라는 정의가 표시되는 문제를 이미 패치했습니다. 맞춤법 오류가 지속되는 이유는 이를 근절하기가 어렵기 때문입니다.
연구자들이 이전에 설명한 바와 같이, AI는 문장을 단어와 글자로 구성된 언어 단위로 인식하지 않습니다. 많은 LLM은 트랜스포머 모델을 기반으로 하며, 텍스트를 토큰(전체 단어, 음절 또는 글자 등 모델에 따라 다름)으로 분해합니다. 인간이 읽는 방식과 달리 AI는 텍스트를 수치적 표현으로 변환한 뒤 이를 맥락화하여 응답을 생성합니다.

이미지 출처: TechCrunch
“LLM은 이 트랜스포머 아키텍처를 기반으로 하는데, 이는 실제로 텍스트를 읽는 것이 아닙니다. 프롬프트를 입력하면 그것이 인코딩으로 변환됩니다,” 라고 앨버타 대학교의 AI 연구원 겸 조교수인 매튜 구즈디얼(Matthew Guzdial)이 TechCrunch와의 인터뷰에서 말했습니다. “‘the’라는 단어를 보면 ‘the’가 의미하는 하나의 인코딩을 가지고 있지만, ‘T’, ‘H’, ‘E’에 대해서는 알지 못합니다.”
토큰화 제한
The token‑based architecture that powers LLMs like Google’s AI Overview is inherently limiting, and researchers haven’t been optimistic that they can fully solve the spelling problem.
“It’s kind of hard to get around the question of what exactly a ‘word’ should be for a language model, and even if we got human experts to agree on a perfect token vocabulary, models would probably still find it useful to ‘chunk’ things even further,” explained Sheridan Feucht, a PhD student studying large language model interpretability at Northeastern University, to TechCrunch. “My guess would be that there’s no such thing as a perfect tokenizer due to this kind of fuzziness.”
요약
이는 연구자들의 머릿속에 급박한 문제라고 할 수는 없습니다. LLM의 유용성은 맞춤법 능력에서 오는 것이 아니기 때문입니다. 그러나 이러한 명백한 실패는 AI가 완벽하지 않다는 것을 상기시켜 줍니다. 때때로 AI가 우리의 이해를 초월한 전지전능한 힘처럼 보이더라도 말이죠. 우리는 AI 출력물을 그 정확성을 재확인하지 않고 맹목적으로 신뢰할 수 없습니다.
우리 기사에 있는 링크를 통해 구매하시면, 소액의 커미션을 받을 수 있습니다. 이는 우리의 편집 독립성에 영향을 주지 않습니다.