[논문] PsychoSafe: 대형 언어 모델에서 심리학 기반 거부 응답 유도
개요
대형 언어 모델(LLM)은 거부해야 할 요청을 자주 받으며, 이는 유용성 및 해악 방지 사이의 균형을 요구합니다. 그러나 거부 자체도 도움이 될 수 있습니다. 위기 상황, 강압, 혹은 위험한 의도가 점점 고조되는 고위험 상호작용에서는 단순히 응답을 거부하는 것이 직접적인 해를 막을 수 있지만, 요청자(즉, 사람)의 필요를 충분히 지원하지 못할 수도 있습니다. 우리는 거부를 증거 기반 개입 전략에 근거한 구조화된 지원 커뮤니케이션으로 재구성하는 심리학 기반 거부 프레임워크인 PsychoSafe를 제안합니다. PsychoSafe를 개발하기 위해 우리는 다섯 가지 심리적으로 중요한 위험 영역을 포괄하는 8,019개의 프롬프트‑응답 쌍을 구축하고, 이를 Qwen 3.5 27B 모델에 프롬프트와 파라미터 효율적인 미세조정을 적용했습니다. 500개의 프롬프트로 구성된 균형 잡힌 검증 세트에서 LLM 심사관과 인간 평가를 통해 검증한 결과, PsychoSafe 프롬프트는 일반 베이스라인 대비 전체 거부 품질을 28.1% 향상시켰으며, 특히 외부 자원 소개(+46.8%)와 심리적 근거 제공(+34.8%)에서 큰 개선을 보였습니다. 동시에 비거부 작업에 대한 하위 성능은 유지되었습니다. 미세조정은 거의 완벽한 거부 및 자원 소개 비율을 달성했지만, 응답의 관련성은 다소 감소했습니다. 추가 평가(SORRY‑Bench, XSTest)에서는 도메인 내 강인성을 보였으나 도메인 외 일반화는 제한적이었으며, 이는 향후 연구에서 미세조정 데이터를 다양화하여 모델이 개입을 체계적이기보다 선택적으로 적용하도록 해야 함을 시사합니다.
주요 기여
이 논문은 다음 분야의 연구를 다룹니다.
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- Gianluca Barmina
- Federico Torrielli
- Sven Harms
- Jacob Nielsen
- Felix Mächtle
- Stine Lyngsø Beltoft
- Peter Schneider‑Kamp
- Thomas Eisenbarth
- Lukas Galke Poech
- Anne Lauscher
논문 정보
- arXiv ID: 2606.09697v1
- 분류: cs.CL
- 발표일: 2026년 6월 8일
- PDF: PDF 다운로드