[Paper] 저자는 사망했지만, 그들이 살아 있지 않았다면? 체코 AI 및 인간이 만든 시에 대한 수용 실험
Source: arXiv - 2511.21629v1
Overview
최근 연구에서는 체코어 원어민이 인간이 쓴 시와 대형 언어 모델(LLM)이 생성한 시를 구별할 수 있는지를 조사했습니다. 놀랍게도 참가자들은 저자를 정확히 맞힌 비율이 약 절반에 불과했으며, 미학적 평점은 시의 출처에 대한 믿음에 크게 좌우되었습니다. 이 작업은 현대 LLM이 형태학적으로 풍부하고 데이터가 적은 언어인 체코어에서도 설득력 있는 창작 텍스트를 생성할 수 있음을 보여줍니다.
Key Contributions
- Cross‑lingual creativity test: LLM 훈련 데이터에 충분히 포함되지 않은 언어인 체코어에서 AI‑생성 시를 최초로 체계적으로 평가했습니다.
- Authorship detection at chance level: 참가자들은 AI와 인간 시를 정확히 구별한 비율이 45.8 %에 불과했습니다.
- Authorship bias in aesthetic judgment: 시가 AI가 만든 것으로 생각될 때 평점이 낮아졌으며, 실제 AI 시는 인간 시와 동등하거나 더 높은 평가를 받았습니다.
- Statistical insight: 로지스틱 회귀 분석 결과, 시에 대한 즐거움이 높을수록 저자를 정확히 맞출 확률이 감소했으며, 문학적 전문성은 측정 가능한 영향을 미치지 않았습니다.
- Implications for human‑AI interaction: 텍스트의 출처에 대한 믿음이 인지된 품질을 형성한다는 현상을 보여주며, 이는 콘텐츠 조정, 교육, 창작 협업 도구 등에 중요한 함의를 가집니다.
Methodology
- Corpus creation – 저자들은 체코어 시를 균형 있게 수집했습니다: 현대 체코 시인들이 쓴 시와 체코어 텍스트에 파인‑튜닝된 최신 LLM이 생성한 시를 각각 절반씩 준비했습니다.
- Participant recruitment – 온라인을 통해 연령, 교육 수준, 시에 대한 친숙도가 다양한 체코어 원어민 200명을 모집했습니다.
- Experiment design – 각 참가자는 무작위로 선택된 시를 읽고 두 가지 과제를 수행했습니다:
- Authorship guess: “Human” 또는 “AI?”
- Aesthetic rating: 전반적인 품질, 감정적 영향, 언어적 우아함을 1–7 Likert 척도로 평가.
- Data analysis – 정확도는 우연 수준과 비교했으며, 혼합 효과 로지스틱 회귀를 사용해 미학 점수, 참가자 배경, 저자 추정 정확도 간의 관계를 모델링했습니다.
이 설계는 기술 용어를 최소화합니다. 즉, “인간이 만든 재료”와 “AI가 만든 재료” 중 하나를 사용한 시를 “눈 가린 맛보기” 테스트로 생각하면 됩니다. 평가자는 또한 각 “요리”를 얼마나 좋아했는지도 평가합니다.
Results & Findings
- Authorship detection: 45.8 % 정확 (≈ 우연 수준). 문학 교육을 받은 참가자에게 유의미한 이점은 없었습니다.
- Aesthetic scores: 참가자들이 시를 AI가 만든 것으로 생각했을 때 7점 척도에서 평균 0.6점 낮게 평가했으며, 실제 AI 시는 인간 시와 동등한 점수를 받았습니다.
- Regression outcome: 즐거움 점수가 높을수록 올바른 저자 추정 확률이 감소했습니다 (β = ‑0.42, p < 0.01).
- No familiarity effect: 시를 읽은 연수나 문학 전공 여부가 탐지 정확도에 영향을 주지 않았습니다.
쉽게 말해: 사람들은 시를 좋아했지만, 누가 썼는지에 대한 믿음이 판단을 흐리게 만들었습니다.
Practical Implications
- Content creation tools: 개발자는 LLM‑생성 시(또는 더 넓은 범위의 창작 텍스트)를 앱, 뉴스레터, 소셜 미디어 봇 등에 삽입해도 사용자가 즉시 AI 출처를 알아차리기 어렵다는 점을 활용할 수 있습니다.
- Education & literary analysis: 교사는 학생들이 AI‑생성 작품을 출처에 따라 다르게 평가할 수 있음을 인식하고, 채점이나 비평 방식을 조정해야 합니다.
- Brand storytelling: 기업은 AI가 만든 슬로건, 징글, 짧은 구절을 실험적으로 활용해 “인간 같은” 품질을 활용하면서도 진위성에 대한 기대를 관리할 수 있습니다.
- Bias mitigation: AI‑생성 콘텐츠에 라벨을 붙이는 플랫폼은 이러한 라벨이 인지된 품질을 낮출 수 있다는 점을 고려해 사용자 참여 지표에 미치는 영향을 최소화해야 합니다.
- Multilingual AI development: 체코어에서의 성공은 비교적 작은 코퍼스로도 LLM을 파인‑튜닝하면 저자원 언어에서도 높은 품질의 창작물을 만들 수 있음을 시사하며, 현지화된 콘텐츠 생성의 문을 엽니다.
Limitations & Future Work
- Dataset size & diversity: 시 집합이 규모가 작고 현대 스타일에 국한되어 있어, 서사시나 실험적 장르 등으로 확장하면 탐지율이 달라질 수 있습니다.
- Model specifics: 하나의 LLM 아키텍처만 테스트했으며, 다른 모델이나 프롬프트 전략에 따라 결과가 달라질 수 있습니다.
- Cultural nuance: 체코어는 형태학적으로 복잡하지만 여전히 훈련 데이터와 많은 인도‑유럽어 뿌리를 공유합니다. 디지털 텍스트가 거의 없는 소수 언어와 같은 진정한 저자원 언어에 대한 검증은 남아 있습니다.
- Long‑term perception: 이번 연구는 즉각적인 반응만을 측정했으며, 향후 연구에서는 AI 시에 반복적으로 노출될 때 장기적인 미학 기준 및 신뢰가 어떻게 변하는지 탐구할 필요가 있습니다.
전반적으로 이 논문은 AI가 언어 공동체의 문화적 직물에 어떻게 녹아들 수 있는지를 보여주며, 저자에 대한 우리의 믿음이 텍스트 자체만큼이나 중요한 역할을 한다는 점을 강조합니다.
Authors
- Anna Marklová
- Ondřej Vinš
- Martina Vokáčová
- Jiří Milička
Paper Information
- arXiv ID: 2511.21629v1
- Categories: cs.CL
- Published: November 26, 2025
- PDF: Download PDF