고백이 언어 모델을 정직하게 유지하는 방법

발행: (2025년 12월 3일 오후 07:00 GMT+9)
1 min read

Source: OpenAI Blog

Confessions for Model Honesty

OpenAI 연구원들은 “confessions”라는 방법을 테스트하고 있습니다. 이 방법은 모델이 실수를 하거나 바람직하지 않은 행동을 했을 때 이를 인정하도록 훈련시켜, AI의 정직성, 투명성 및 모델 출력에 대한 신뢰를 향상시키는 데 도움을 줍니다.

Back to Blog

관련 글

더 보기 »