Show HN: 178 AI 모델의 writing styles와 similarity clusters에 대한 지문을 남겼습니다
발행: (2026년 4월 8일 PM 11:06 GMT+9)
3 분 소요
원문: Hacker News
Source: Hacker News
Dataset
- 43개의 프롬프트에 걸친 3,095개의 표준화된 AI 응답.
- 각 응답은 32‑차원 스타일러믹 지문(어휘 풍부도, 문장 구조, 구두점 습관, 포맷팅 패턴, 담화 표지)으로 표현됩니다.
Findings
- 9개의 클론 클러스터 (> 90 % 코사인 유사도, z‑정규화된 특징 벡터 기준).
- Mistral Large 2와 Large 3은 다섯 개의 독립 신호를 결합한 복합 지표에서 84.8 % 점수를 달성했습니다.
- Gemini 2.5 Flash Lite는 Claude 3 Opus와 78 % 유사하게 작성하지만 비용은 185배 낮습니다.
- Meta는 37.5배의 구별도 비율을 보이며 가장 강력한 제공자 “하우스 스타일”을 나타냅니다.
- 프롬프트 **“Satirical fake news”**는 모든 모델에서 가장 큰 글쓰기 수렴을 일으킵니다.
- 프롬프트 **“Count letters”**는 가장 큰 발산을 일으킵니다.
Composite Clone Score
복합 클론 점수는 다음을 결합합니다:
- 프롬프트 제어 하에 직접 비교되는 유사도.
- 과제 전반에 걸친 각 특징별 Pearson 상관관계.
- 응답 길이 상관관계.
- 프롬프트 간 일관성.
- 전체 코사인 유사도.
Technology
- Node.js로 구현된 스타일러믹 추출.
- 특징 벡터에 Z‑점수 정규화 적용.
- 전체 비교에 코사인 유사도 사용.
- 각 특징 추적에 Pearson 상관관계 활용.
- 분석 스크립트는 약 1,400줄의 코드로 구성됩니다.
Additional Information
- 댓글 URL:
- 포인트: 24
- 댓글: 6