AI 텍스트 인간화 파이프라인 분석: 6단계 절제 연구

발행: (2026년 3월 28일 오후 02:33 GMT+9)
8 분 소요
원문: Dev.to

Source: Dev.to

절제 연구: 어떤 변환 단계가 실제로 중요한가?

“점수는 좋습니다. 하지만 실제로 무엇이 작동하고 있나요?”

이전 글에서 나는 AI가 생성한 텍스트를 더 인간처럼 느끼게 만드는 파이프라인을 구축하고 Mean Alignment = 0.945Distribution Alignment = 0.864라는 벤치마크 결과를 보고했습니다. 이 수치는 꽤 견고해 보이지만, 6가지 변환 단계 중 어느 것이 실제로 기여하고 어느 것이 단순히 잡음인지는 알려주지 못합니다.

내가 한 일

나는 절제(제거) 연구를 수행했습니다: 각 단계를 하나씩 비활성화하고 파이프라인을 500개 샘플(80 % / 20 % 분할)로 구성된 보류 테스트 세트에서 다시 평가했습니다.

아래는 결과입니다.

결과 표

Disabled Step평균 정렬분포 정렬평균 감소분포 감소
없음 (전체 파이프라인)0.9450.864
채우기 삽입0.6220.569‑0.323‑0.296
긴 문장 분할0.7510.720‑0.194‑0.144
짧은 문장 삽입 (감탄사)0.7630.742‑0.182‑0.122
완화 삽입0.8080.740‑0.137‑0.125
완충 삽입0.8510.779‑0.094‑0.085
자기 교정 삽입0.9440.866‑0.001+0.001
파이프라인 없음0.0030.000‑0.942‑0.864

핵심 요점:

  1. 채우기 삽입이 가장 큰 감소를 일으켰다 (‑0.323).
  2. 긴 문장 분할짧은 문장 삽입이 함께 채우기보다 더 많이 기여했다 (‑0.376).
  3. 자기 교정 삽입은 사실상 영향을 주지 않았다.

놀라움에 대한 심층 탐구

1️⃣ 채우기 삽입 – 가장 큰 기여 요인 (‑0.323)

측정항목인간 텍스트AI 텍스트코헨 d
채우기 비율 (문장당)0.1650.0011.755 (매우 큼)

인간은 “Well,”, “You know,” 혹은 “Basically,” 와 같은 채우기 표현을 정기적으로 사용합니다 (≈ 6문장당 1회). AI는 거의 사용하지 않아 채우기 비율이 가장 강력한 구분 지표가 됩니다.

거짓 양성 함정

초기 구현에서는 단어 “like” (\blike\b)가 등장하면 모두 채우기로 간주했습니다. 이 때문에 “I like pizza”와 같은 문장까지 포함되어 채우기 비율이 > 0.3으로 부풀어, 인간이 채우기를 과다 사용한다는 (잘못된) 결론에 이르게 되었습니다.

수정: 위치 의존 탐지로 전환:

# NG: Riddled with false positives
FILLER_PATTERNS = [r"\blike\b", r"\bso\b", r"\bwell\b"]

# OK: Detects only filler usage at sentence start + comma
FILLER_START_PATTERNS = [r"^(?:well|so|like)\s*,"]
FILLER_ALWAYS = [r"\byou know\b", r"\bi mean\b", r"\bbasically\b"]

교훈: 정량적 NLP 작업에서는 결론을 내리기 전에 정규식 거짓 양성을 반드시 제거해야 합니다.

2️⃣ 자기 수정 삽입 – 실패 (‑0.001)

자기 수정 표시(예: “wait, I mean…”, “sorry, what I meant was…”)는 인간 비즈니스 커뮤니케이션에서 거의 나타나지 않습니다 (0.19 % / 문장, 가중치 = 0.097). 샘플이 500개에 불과해 신뢰 구간이 넓게 ([0.001, 0.004]) 나타나, 어떤 효과도 잡음에 묻히게 됩니다.

결과: 해당 단계는 최종 파이프라인에서 제거되었습니다.

3️⃣ 긴 문장 분할 및 짧은 문장 삽입

단계주요 효과메커니즘
긴 문장 분할단어 / 문장 감소평균 길이를 18 → 13단어로 축소
짧은 문장 삽입문장 길이 변동계수(CV) 증가짧은 삽입문(“Hmm.”, “Got it.”) 추가

AI는 비교적 균일하게 긴 문장을 생성하는 반면, 인간은 짧은 확인 문장과 긴 설명을 혼합합니다. 이 두 단계가 합쳐 ‑0.376을 기여하여 채우기 기여도를 넘어섭니다.

메트릭 가중치 (판별력에서 파생)

메트릭Cohen’s d가중치
필러 비율1.7551.88
단어 / 문장1.3561.45
문장‑길이 변동계수1.0861.16
완화어 비율0.8180.87
완충 비율0.5060.54
자기 교정 비율0.0910.10

효과 크기 d > 0.8 은 큰 효과를 의미한다; 따라서 필러 비율, 단어/문장, 그리고 문장‑길이 변동계수가 인간/AI 구분을 지배한다.

Limitations & Future Work

  • Context‑dependence: 현재 파이프라인은 고정된 확률로 filler와 hedge를 삽입합니다. 실제로 filler 사용은 주제에 따라 다릅니다(캐주얼 대화에서는 더 많이, 기술 문서에서는 적게). 이 불일치 때문에 두 지표가 KS 테스트에서 실패했습니다.
  • Automated vs. Human Evaluation: DPO 벤치마크는 표면적인 특징 매칭(예: filler나 오타 존재)을 보상하지만 인간 독자가 텍스트가 인간이 쓴 것처럼 느끼는지를 보장하지는 않습니다. 인간 평가가 여전히 필수적입니다.
  • Sample Size: 테스트 샘플이 500개뿐이라 드물게 나타나는 현상(예: 자기‑수정)을 신뢰 있게 평가하기 어렵습니다.

단계별 최종 순위

순위단계기여도 (평균 감소)요점
1Filler Insertion‑0.323가장 중요 – false positive에 주의
2Long Sentence Splitting‑0.194문장당 단어 수를 인간 수준에 맞춤
3Short Sentence Insertion‑0.182자연스러운 문장 길이 변화를 도입
4Hedge Injection‑0.137모호성을 추가, 영향은 미미
5Cushion Injection‑0.094공손한 서두(예: “Sure,”, “Of course,”) 삽입
6Self‑Correction Injection‑0.001실질적으로 0 – 최종 설계에서 제외

리소스

  • 코드 및 데이터:
  • 전체 연구 기사: (다음 기사 링크)

정리된 마크다운 종료.

상태: 사전 인쇄물로 정식 출판

제목: HumanPersonaBase: 인간과 같은 AI 커뮤니케이션을 위한 언어에 구애받지 않는 프레임워크

DOI: 10.5281/zenodo.19273577

0 조회
Back to Blog

관련 글

더 보기 »

AI와 함께하는 삶, 인간 뇌를 'Fry'

fjo3가 France 24의 보고서를 공유합니다: 분석할 코드 라인이 너무 많고, 다루어야 할 AI assistants 군대가 있으며, 긴 프롬프트를 작성해야 하는 것이 불평 중 하나입니다 b...