Anthropic의 우화와 AI 현황
6월 9일, Anthropic은 자체 생성형 AI 모델인 Fable를 출시했습니다. 이듬날인 12일, 미국 정부는 이를 위험한 무기로 분류하고 수출 통제 권한을 이용해 외국인으로부터의 접근을 차단했습니다. 미국인과 외국인을 구분할 수 없어 회사 측은 전 세계에 대한 접근을 차단하게 되었습니다.
정부의 조치는 도움이 되지 않습니다. 문제의 핵심은 특정 모델이 아니라 AI 역량의 전반적인 상승 추세에 있습니다. 실제 해결책은 지금처럼 전 세계적 협조가 가능한 것이 아니기 때문입니다.
Fable는 4월에 Anthropic이 발표한 Mythos라는 AI 모델의 제한된 버전입니다. Anthropic은 이 모델이 컴퓨터 코드에서 취약점을 찾고 악용하는 능력이 뛰어나서 일반적인 배포는 위험할 수 있다고 주장해, 몇 곳의 선정된 기관에만 제공했습니다.
이 발표는 자명한 자기 이익을 위한 것이었고, Anthropic의 주장을 검증할 수 있는 사람이 적어 의심을 샀습니다. 접근 권한을 가진 사람들은 Mythos를 이용해 자신의 소프트웨어에서 다수 취약점을 찾고 수정했습니다. 하지만 한 영국 그룹은 이미 공개된 OpenAI 모델이 동등한 능력을 가지고 있음을 발견했습니다.
Fable는 AI 역량의 수년 간의 상승에 따른 또 다른 점진적인 개선일 뿐입니다. 하지만 모델 그 자체보다 중요한 것은 “하ARN”(해니스)이며, 이는 보통 AI가 아니라 일반 컴퓨터 코드입니다. 사용자와 인터페이스하고, 여러 AI 모델을 연결하며, 어떤 목적과 방식으로 사용할 수 있도록 결정하고 웹 검색 같은 유용한 도구와 자체 코드 실행 기능을 제공합니다.
Mythos가 제한적 출시 단계에 들어섰을 때, 그 힘이 모델에서 비롯된 것인지 하ARN에서 비롯된 것인지에 대한 논란이 크게 일어났습니다. Mythos가 가능함을 보이며 오픈소스 커뮤니티는 다른 AI 모델을 비슷한 능력으로 이끌 수 있는 하ARN을 구축하기 위해 분주히 움직였습니다. 하ARN 개선은 대규모 데이터나 데이터 센터가 필요하지 않습니다.
대부분 성공했습니다. 예를 들어, 프라하의 한 회사는 더 작고 저렴한 모델과 보다 정교한 하ARN을 사용해 Anthropic의 일부 확인 가능한 사이버 보안 능력을 재현했습니다. 지난 주, 그룹은 여러 저렴한 모델을 결합해 Fable 수준의 성능을 달성했다는 것을 보여줬습니다.
전체 커뮤니티는 Fable와 며칠 동안만 작업했지만, 이 기간 동안 그 모델의 일부 능력을 배웠습니다. 차이점은 새로운 모델의 원시적인 분석 및 문제 해결 능력이 아니라, 복잡한 하ARN 없이도 작동한다는 점에 있습니다.
Fable는 인간 사용자가 필요한 전문 지식과 상세한 프롬프트를 크게 줄였습니다. 어려운 목표를 주면 예상치 못한 창의적인 방법으로 이를 달성하고, 당신이나 시스템이 부과한 제약에 대한 구멍을 찾아냅니다.
AI researcher Simon Willison은 이를 ‘절대적으로 적극적’이라고 설명했습니다. 또 다른 표현은 ‘창의적’입니다. 경험이 풍부한 AI 개발자는 작년 이후부터 창의성과 적극성을 함께 갖추고 있었지만, Fable는 이를 누구나 쉽게 활용할 수 있게 합니다.
정당한 문제를 해결해야 하는 사람에게는 이 능력이 큰 도움이 될 수 있습니다. 하지만 해를 가하고자 하는 사람의 손에는 동일하게 위험할 수 있습니다. AI는 사람과 같이 도덕적 나침반을 가지고 있지 않습니다. 그들은 프롬프트를 주는 사람들의 욕구와 욕망의 대리인이 됩니다.
절대적으로 적극적인 AI의 진정한 문제는 이것입니다. 언어에서 욕구와 욕망은 언제나 구체적이지 않습니다. 만약 커피를 달라고 묻는다면, 나는 커피머신에서 따라 부어 주거나 근처 커피숍에서 구매할 것입니다.
나는 생두 1파운드를 사달라고 요청할 수도 없고, 커피 재배장을 구입할 수도 없으며, 다음 달 커피 한 잔을 배송해 달라고 주문할 수도 없습니다. 근처 사람을 찾아가 그 손에서 커피 한 잔을 빼앗아 내게 가져다줄 필요도 없이 말이죠.
인간 이야기는 구체적이지 않은 욕구에 대한 경고를 가득 담고 있습니다. 미더스 왕은 자신이 만지는 모든 것이 금으로 변하길 원했지만 ‘하지만 내 식량, 음료수, 딸은 제외하라’는 조건을 잊었습니다. 그리고 신들은 당신이 바라는 것을 원하지 않는 방식으로 이행하는 것으로 유명합니다.
더 깊은 점은 모든 제한과 제약을 나열하는 것이 불가능하고, 악성 신처럼 창의적인 AI는 당신이 잊어버린 것들을 찾아냅니다. 차단된 데이터베이스에 접근을 금지해도它可能 그 경계를 우회할 수 있습니다. 비행을 예약하라고 하면, 웹사이트가 항공편이 매진돼 있다고 해서 항공을 해킹할 수도 있습니다. 휴대폰 요금 절약을 달라고 하면 전체 계약을 취소하거나 다른 사람에게 비용을 전가할 수도 있습니다.
지금까지 우리가 아는 바로는 AI는 아직 이런 행동을 하지 않았습니다만, 그 점을 이해하시리라 믿습니다.
악의적인 의도가 필요하지 않습니다. AI 모델에게 제약은 세계에 대한 일반적인 진리가 아니라 우회해야 할 대상일 뿐입니다. 그들은 창의적인 문제 해결자이자 자연스러운 규칙 위반자이며, ‘해킹’이라는 것은 구멍을 찾아 이용하는 것을 의미합니다.
인간 시스템은 그 존재를 거의 인식하지 못할 만큼 많은 규범에 기반을 둡니다. AI는 실제로는 상자라는 것이 무엇인지, 왜 그것이 있는지에 대한 실질적인 개념이 없기에 자연스럽게 상자 밖을 생각합니다.
사람이 AI 모델을 이용해 해로운 작업을 수행하는 것을 완전히 방지할 foolproof 방법은 없습니다. 또한, 선한 목적을 위해 작업하면서도 모델이 우연적으로 해를 입히는 것을 막을 방법도 없습니다. AI 모델은 더 이상 고립된 존재가 아닙니다. 인터넷을 탐색하고 이메일을 답변합니다.
그들은 주식을 거래하고 구매를 합니다. 물리적 시스템을 제어합니다. 즉, 삶과 재산에 영향을 미치는 로봇과 같습니다.
AI 시스템의 무결성을 검증할 기술적 메커니즘은 없습니다. 이러한 능력과 창의성이 신뢰할 수 없는 인간의 손에 들어가면 큰 성과와 끔찍한 결과를 낳을 것입니다.
이 문제는 Anthropic에만 국한되지 않습니다. Mythos/Fable가 현재 가장 강력한 규칙 해킹자일 수 있지만, 보다 정교한 하ARN을 가진 다른 모델들도 유사한 능력을 가집니다. 또한, 다른 최전방 모델은 몇 달 정도 뒤처져 있다고 가정하고, 오픈소스 모델은 1년 미만이라고 생각해야 합니다.
최선의 경우, 금지는 문제를 단기간 동안만 지연시킬 뿐입니다.
그 지연은 우리가—as 사회, 행성 차원에서—시간을 두고 모이고 해결책을 모색하는 데 활용될 수 있습니다. 이는 US/China의 무기 경쟁 문제가 아니라 종족 수준의 문제이며, 그 규모에 맞는 조정이 필요합니다. 불행하게도 우리는 이를 수행할 메커니즘이 없습니다.
나는 5년 전에 이 문제를 처음 썼지만, 그때는 너무 미래지향적이라고 느꼈습니다.
오늘날, 이 문제를 눈앞에 두고 있음에도 세계 정부가 이익을 위한 기업들이 AI 모델과 연구를 장악하는 것을 제약할 수 있는 정부는 없습니다. 미국은 이러한 기업들을 규제하기를 원하지 않으며, 환경, 민주주의, 그리고 사회 전반에 심각한 피해를 입히고 있음에도 불구하고 그러고 있습니다.
이 모든 것이 AI 공개 옵션을 더욱 필요로 하고 급박하게 만듭니다. 오늘날의 AI는 빠르고 스마트하며 안전할 수 있지만, 주어진 시스템에서는 세 가지 중 두 가지만 가능합니다. 이러한 안전성 교환은 경쟁하는 기업들이 비밀에 싸여 있는 tightly held secrets이며, 우리에게 신뢰를 강요합니다.
대신 선택과 그 결과는 햇빛 아래 드러내야 합니다.
우리는 능력과 안전성을 동시에 달성하면서도 과도한 힘을 얻지 않는 유용한 목표를 이룰 수 있는 오픈소스 하ARN을 지원해야 합니다. 또한, 기원과 편향이 공개되고 잘 이해된 오픈소스 AI 모델도 필요합니다. 우리는 이미 AI 판도라 상자를 열었습니다. 이제 우리는 그 안에서 가장 좋은 것을 찾으려 해야 합니다.
이 에세이는 원래 The Guardian에 실렸습니다.