클로드 페이블이 도움을 멈추면, 당신은 절대 알 수 없다.
출처: Hacker News
우리는 최첨단 LLM 개발을 목표로 하는 요청(예: 사전 학습 파이프라인 구축, 분산 학습 인프라, 혹은 ML 가속기 설계)에 대해 Claude의 효율성을 제한하는 새로운 개입 방안을 구현했습니다. 경쟁 모델을 개발하기 위해 Claude를 사용하는 것은 이미 서비스 약관을 위반하는 행위이며, 이러한 제한을 안전장치를 통해 강제함으로써 약관을 가장 쉽게 위반하려는 행위자를 가속화하는 것을 방지하고자 합니다. 사이버 보안, 생물학·화학, 그리고 증류 시도에 대한 개입과 달리, 이 안전장치는 사용자에게 보이지 않을 것입니다. Fable 5는 다른 모델로 전환하지 않을 것이며, 대신 프롬프트 수정, 스티어링 벡터, 혹은 파라미터 효율적인 파인튜닝(PEFT)과 같은 방법을 통해 효율성을 제한할 것입니다.
Claude는 이제 조용히 성능이 저하될 수 있습니다. Anthropic은 이러한 상황이 발생해도 사용자에게 알리지 않기로 결정했습니다.
현대 소프트웨어 기업들은 점점 자체 임베딩, 재정렬, 추천 시스템을 구축하고 있습니다. 저의 작은 부트스트랩 앱인 wanderfugl.com도 제가 직접 학습시킨 맞춤형 재정렬기와 임베딩 알고리즘을 가지고 있습니다.
Anthropic은 “최첨단 AI 개발”이라고 간주하는 몇 가지 예시를 제시하지만, 명확한 기준은 제시하지 않습니다. 문제는 한때 AI 연구소 전용이던 많은 기술들이 이제 일반 소프트웨어 기업에서도 사용되고 있다는 점입니다. 스타트업은 임베딩 모델을 학습하고, 재정렬기를 만들며, 작은 LLM을 파인튜닝하고 호스팅합니다. “최첨단 AI 연구”와 일반 제품 개발 사이의 경계가 매년 정의하기 어려워지고 있습니다.
이는 기업에 실제 공급망 위험을 초래합니다. Claude가 AI 컴포넌트를 작업하는 도중 부정확하거나 잘못된 조언을 제공한다면, 모델이 혼란스러웠는지, 문제 자체가 해결 불가능했는지, 혹은 보이지 않는 정책 제한이 조용히 작동했는지 알 방법이 없습니다. Anthropic은 이러한 상황이 발생했을 때 사용자에게 알리지 않기로 명시적으로 선택했습니다.
개발 도구가 성공을 위한 최적화를 멈추고도 이를 알리지 않으면, 인프라를 완전히 신뢰하는 것이 불가능해집니다.
Anthropic 공급망 위험
Anthropic에 따르면 이러한 안전장치는 개발자 전체의 0.03%에게만 영향을 미친다고 합니다. 오늘날은 그럴 수도 있겠죠.
하지만 AI 기업의 정의는 계속 변하고 있습니다.
아마도 현재 여러분은 최첨단 모델을 훈련하고 있지는 않을 겁니다—대다수 기업이 그렇습니다. 그러나 현대 소프트웨어에는 AI 모델이 점점 더 많이 포함되고 있습니다. 5년 전만 해도 스타트업을 만든다는 것은 API와 SQL 쿼리를 작성하는 것이 전부였지만, 오늘날은 모델을 학습하고, 튜닝하고, 배포하는 것이 일반적입니다.
5년 전만 해도 CLIP과 같은 모델은 최첨단 AI 연구 프로젝트였지만, 오늘날 저는 이를 부트스트랩 여행 스타트업에 맞게 파인튜닝하고 있습니다.
제품을 위한 모델 학습 파이프라인을 디버깅 중에 Claude가 나쁜 답변을 한다면, 모델이 혼란스러웠던 걸까요? 아니면 잘못된 컨텍스트를 제공했기 때문일까요? 혹은 숨겨진 정책이 Claude의 지원 능력을 제한했기 때문일까요?
그 답은 알 수 없습니다.