AI 텍스트 인간화 파이프라인 분석: 6단계 절제 연구

발행: 1개월 전 (2026년 3월 28일 오후 02:33 GMT+9)

8 분 소요

원문: Dev.to

Source: Dev.to

절제 연구: 어떤 변환 단계가 실제로 중요한가?

“점수는 좋습니다. 하지만 실제로 무엇이 작동하고 있나요?”

이전 글에서 나는 AI가 생성한 텍스트를 더 인간처럼 느끼게 만드는 파이프라인을 구축하고 Mean Alignment = 0.945와 Distribution Alignment = 0.864라는 벤치마크 결과를 보고했습니다. 이 수치는 꽤 견고해 보이지만, 6가지 변환 단계 중 어느 것이 실제로 기여하고 어느 것이 단순히 잡음인지는 알려주지 못합니다.

내가 한 일

나는 절제(제거) 연구를 수행했습니다: 각 단계를 하나씩 비활성화하고 파이프라인을 500개 샘플(80 % / 20 % 분할)로 구성된 보류 테스트 세트에서 다시 평가했습니다.

아래는 결과입니다.

결과 표

Disabled Step	평균 정렬	분포 정렬	평균 감소	분포 감소
없음 (전체 파이프라인)	0.945	0.864	—	—
채우기 삽입	0.622	0.569	‑0.323	‑0.296
긴 문장 분할	0.751	0.720	‑0.194	‑0.144
짧은 문장 삽입 (감탄사)	0.763	0.742	‑0.182	‑0.122
완화 삽입	0.808	0.740	‑0.137	‑0.125
완충 삽입	0.851	0.779	‑0.094	‑0.085
자기 교정 삽입	0.944	0.866	‑0.001	+0.001
파이프라인 없음	0.003	0.000	‑0.942	‑0.864

핵심 요점:
채우기 삽입이 가장 큰 감소를 일으켰다 (‑0.323).
긴 문장 분할과 짧은 문장 삽입이 함께 채우기보다 더 많이 기여했다 (‑0.376).
자기 교정 삽입은 사실상 영향을 주지 않았다.

놀라움에 대한 심층 탐구

1️⃣ 채우기 삽입 – 가장 큰 기여 요인 (‑0.323)

측정항목	인간 텍스트	AI 텍스트	코헨 d
채우기 비율 (문장당)	0.165	0.001	1.755 (매우 큼)

인간은 “Well,”, “You know,” 혹은 “Basically,” 와 같은 채우기 표현을 정기적으로 사용합니다 (≈ 6문장당 1회). AI는 거의 사용하지 않아 채우기 비율이 가장 강력한 구분 지표가 됩니다.

거짓 양성 함정

초기 구현에서는 단어 “like” (\blike\b)가 등장하면 모두 채우기로 간주했습니다. 이 때문에 “I like pizza”와 같은 문장까지 포함되어 채우기 비율이 > 0.3으로 부풀어, 인간이 채우기를 과다 사용한다는 (잘못된) 결론에 이르게 되었습니다.

수정: 위치 의존 탐지로 전환:

# NG: Riddled with false positives
FILLER_PATTERNS = [r"\blike\b", r"\bso\b", r"\bwell\b"]

# OK: Detects only filler usage at sentence start + comma
FILLER_START_PATTERNS = [r"^(?:well|so|like)\s*,"]
FILLER_ALWAYS = [r"\byou know\b", r"\bi mean\b", r"\bbasically\b"]

교훈: 정량적 NLP 작업에서는 결론을 내리기 전에 정규식 거짓 양성을 반드시 제거해야 합니다.

2️⃣ 자기 수정 삽입 – 실패 (‑0.001)

자기 수정 표시(예: “wait, I mean…”, “sorry, what I meant was…”)는 인간 비즈니스 커뮤니케이션에서 거의 나타나지 않습니다 (0.19 % / 문장, 가중치 = 0.097). 샘플이 500개에 불과해 신뢰 구간이 넓게 ([0.001, 0.004]) 나타나, 어떤 효과도 잡음에 묻히게 됩니다.

결과: 해당 단계는 최종 파이프라인에서 제거되었습니다.

3️⃣ 긴 문장 분할 및 짧은 문장 삽입

단계	주요 효과	메커니즘
긴 문장 분할	단어 / 문장 감소	평균 길이를 18 → 13단어로 축소
짧은 문장 삽입	문장 길이 변동계수(CV) 증가	짧은 삽입문(“Hmm.”, “Got it.”) 추가

AI는 비교적 균일하게 긴 문장을 생성하는 반면, 인간은 짧은 확인 문장과 긴 설명을 혼합합니다. 이 두 단계가 합쳐 ‑0.376을 기여하여 채우기 기여도를 넘어섭니다.

메트릭 가중치 (판별력에서 파생)

메트릭	Cohen’s d	가중치
필러 비율	1.755	1.88
단어 / 문장	1.356	1.45
문장‑길이 변동계수	1.086	1.16
완화어 비율	0.818	0.87
완충 비율	0.506	0.54
자기 교정 비율	0.091	0.10

효과 크기 d > 0.8 은 큰 효과를 의미한다; 따라서 필러 비율, 단어/문장, 그리고 문장‑길이 변동계수가 인간/AI 구분을 지배한다.

Limitations & Future Work

Context‑dependence: 현재 파이프라인은 고정된 확률로 filler와 hedge를 삽입합니다. 실제로 filler 사용은 주제에 따라 다릅니다(캐주얼 대화에서는 더 많이, 기술 문서에서는 적게). 이 불일치 때문에 두 지표가 KS 테스트에서 실패했습니다.
Automated vs. Human Evaluation: DPO 벤치마크는 표면적인 특징 매칭(예: filler나 오타 존재)을 보상하지만 인간 독자가 텍스트가 인간이 쓴 것처럼 느끼는지를 보장하지는 않습니다. 인간 평가가 여전히 필수적입니다.
Sample Size: 테스트 샘플이 500개뿐이라 드물게 나타나는 현상(예: 자기‑수정)을 신뢰 있게 평가하기 어렵습니다.

단계별 최종 순위

순위	단계	기여도 (평균 감소)	요점
1	Filler Insertion	‑0.323	가장 중요 – false positive에 주의
2	Long Sentence Splitting	‑0.194	문장당 단어 수를 인간 수준에 맞춤
3	Short Sentence Insertion	‑0.182	자연스러운 문장 길이 변화를 도입
4	Hedge Injection	‑0.137	모호성을 추가, 영향은 미미
5	Cushion Injection	‑0.094	공손한 서두(예: “Sure,”, “Of course,”) 삽입
6	Self‑Correction Injection	‑0.001	실질적으로 0 – 최종 설계에서 제외

리소스

코드 및 데이터:
전체 연구 기사: (다음 기사 링크)

정리된 마크다운 종료.

상태: 사전 인쇄물로 정식 출판

제목: HumanPersonaBase: 인간과 같은 AI 커뮤니케이션을 위한 언어에 구애받지 않는 프레임워크

DOI: 10.5281/zenodo.19273577