Show HN: 178 AI 모델의 writing styles와 similarity clusters에 대한 지문을 남겼습니다

발행: (2026년 4월 8일 PM 11:06 GMT+9)
3 분 소요

Source: Hacker News

Dataset

  • 43개의 프롬프트에 걸친 3,095개의 표준화된 AI 응답.
  • 각 응답은 32‑차원 스타일러믹 지문(어휘 풍부도, 문장 구조, 구두점 습관, 포맷팅 패턴, 담화 표지)으로 표현됩니다.

Findings

  • 9개의 클론 클러스터 (> 90 % 코사인 유사도, z‑정규화된 특징 벡터 기준).
  • Mistral Large 2Large 3은 다섯 개의 독립 신호를 결합한 복합 지표에서 84.8 % 점수를 달성했습니다.
  • Gemini 2.5 Flash LiteClaude 3 Opus와 78 % 유사하게 작성하지만 비용은 185배 낮습니다.
  • Meta는 37.5배의 구별도 비율을 보이며 가장 강력한 제공자 “하우스 스타일”을 나타냅니다.
  • 프롬프트 **“Satirical fake news”**는 모든 모델에서 가장 큰 글쓰기 수렴을 일으킵니다.
  • 프롬프트 **“Count letters”**는 가장 큰 발산을 일으킵니다.

Composite Clone Score

복합 클론 점수는 다음을 결합합니다:

  1. 프롬프트 제어 하에 직접 비교되는 유사도.
  2. 과제 전반에 걸친 각 특징별 Pearson 상관관계.
  3. 응답 길이 상관관계.
  4. 프롬프트 간 일관성.
  5. 전체 코사인 유사도.

Technology

  • Node.js로 구현된 스타일러믹 추출.
  • 특징 벡터에 Z‑점수 정규화 적용.
  • 전체 비교에 코사인 유사도 사용.
  • 각 특징 추적에 Pearson 상관관계 활용.
  • 분석 스크립트는 약 1,400줄의 코드로 구성됩니다.

Additional Information

  • 댓글 URL:
  • 포인트: 24
  • 댓글: 6
0 조회
Back to Blog

관련 글

더 보기 »