[논문] PsychoSafe: 대형 언어 모델에서 심리학 기반 거부 응답 유도

발행: 3일 전 (2026년 6월 9일 AM 01:19 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.09697v1

개요

대형 언어 모델(LLM)은 거부해야 할 요청을 자주 받으며, 이는 유용성 및 해악 방지 사이의 균형을 요구합니다. 그러나 거부 자체도 도움이 될 수 있습니다. 위기 상황, 강압, 혹은 위험한 의도가 점점 고조되는 고위험 상호작용에서는 단순히 응답을 거부하는 것이 직접적인 해를 막을 수 있지만, 요청자(즉, 사람)의 필요를 충분히 지원하지 못할 수도 있습니다. 우리는 거부를 증거 기반 개입 전략에 근거한 구조화된 지원 커뮤니케이션으로 재구성하는 심리학 기반 거부 프레임워크인 PsychoSafe를 제안합니다. PsychoSafe를 개발하기 위해 우리는 다섯 가지 심리적으로 중요한 위험 영역을 포괄하는 8,019개의 프롬프트‑응답 쌍을 구축하고, 이를 Qwen 3.5 27B 모델에 프롬프트와 파라미터 효율적인 미세조정을 적용했습니다. 500개의 프롬프트로 구성된 균형 잡힌 검증 세트에서 LLM 심사관과 인간 평가를 통해 검증한 결과, PsychoSafe 프롬프트는 일반 베이스라인 대비 전체 거부 품질을 28.1% 향상시켰으며, 특히 외부 자원 소개(+46.8%)와 심리적 근거 제공(+34.8%)에서 큰 개선을 보였습니다. 동시에 비거부 작업에 대한 하위 성능은 유지되었습니다. 미세조정은 거의 완벽한 거부 및 자원 소개 비율을 달성했지만, 응답의 관련성은 다소 감소했습니다. 추가 평가(SORRY‑Bench, XSTest)에서는 도메인 내 강인성을 보였으나 도메인 외 일반화는 제한적이었으며, 이는 향후 연구에서 미세조정 데이터를 다양화하여 모델이 개입을 체계적이기보다 선택적으로 적용하도록 해야 함을 시사합니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다.

cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

Gianluca Barmina
Federico Torrielli
Sven Harms
Jacob Nielsen
Felix Mächtle
Stine Lyngsø Beltoft
Peter Schneider‑Kamp
Thomas Eisenbarth
Lukas Galke Poech
Anne Lauscher

논문 정보

arXiv ID: 2606.09697v1
분류: cs.CL
발표일: 2026년 6월 8일
PDF: PDF 다운로드

[논문] PsychoSafe: 대형 언어 모델에서 심리학 기반 거부 응답 유도

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 완전 무작위 마스킹을 넘어: 어텐션 기반 디노이징 및 최적화, 확산 언어 모델을 위한.

[논문] 폴란드 의학 시험에서 고성능 LLM 재평가: 진정한 실력인가, 편향에 의한 성과인가?

[논문] 제3자 감사를 넘어: 사용자 중심 LLM 편향 연구를 위한 상황적 상호작용 감사

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증