[Paper] OnCoCo 1.0: 온라인 상담 대화에서 세분화된 메시지 분류를 위한 공개 데이터셋

발행: (2025년 12월 11일 오전 01:18 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.09804v1

Overview

이 논문은 OnCoCo 1.0이라는 공개 데이터셋을 소개한다. 이 데이터셋은 온라인 상담 세션에서 추출한 약 2,800개의 개별 메시지를 포함하며, 세분화된 분류 체계(상담사 유형 라벨 38개 + 내담자 유형 라벨 28개)로 주석이 달려 있다. 기존에 주로 사용되던 인터뷰형 코딩 스킴을 넘어, 저자들은 정신건강 챗봇, 분석 대시보드, 치료사 보조 도구 등에 활용될 수 있는 보다 정교한 NLP 모델을 지원하는 자원을 제공한다.

Key Contributions

  • 새로운 코딩 스킴: 텍스트 기반 온라인 상담에 특화된 66개의 구체적인 발화 유형(상담사 38개, 내담자 28개)을 포함한다.
  • OnCoCo 1.0 데이터셋: 실제 상담 대화에서 추출한 2,800개의 수동 라벨링 메시지를 오픈 라이선스로 공개한다.
  • 베이스라인 모델: 데이터셋에 대해 파인튜닝된 트랜스포머 분류기(BERT, RoBERTa 등)의 벤치마크를 제공하며, 코드와 학습된 체크포인트를 공개한다.
  • 포괄적 분석: 새로운 분류 체계가 기존 동기 부여 면담(MI) 코드가 놓치는 대화 역학을 어떻게 포착하는지 보여준다.
  • 리소스 패키지(데이터, 주석 가이드라인, 스크립트)로, 정신건강 애플리케이션을 위한 기존 NLP 파이프라인에 바로 적용할 수 있다.

Methodology

  1. 분류 체계 설계 – 저자들은 기존 상담 코딩 시스템(MI, CBT 등)을 조사하고, 비동기식 텍스트 전용 세션에 대한 공백을 확인했다. 임상 심리학자들의 의견을 반영해 카테고리를 병합·분할·정제하여 최종 66개의 세분화 라벨을 도출했다.
  2. 데이터 수집 – 라이선스가 있는 온라인 상담 플랫폼에서 익명화된 채팅 로그를 샘플링하고, 식별 정보를 제거한 뒤 단일 발화 메시지 단위로 분할했다.
  3. 주석 과정 – 두 명의 훈련된 주석자가 각 메시지에 라벨을 부착했으며, 파일럿 단계와 정기적인 조정 과정을 거쳐 Cohen’s κ ≈ 0.78의 평가자 간 일치를 달성했다.
  4. 모델 학습 – 표준 사전학습 언어 모델(BERT‑base, RoBERTa‑large)을 66‑클래스 분류 작업에 파인튜닝했으며, 층화된 80/10/10 훈련/검증/테스트 비율을 사용했다. 하이퍼파라미터는 간단히 유지(학습률 2e‑5, 배치 크기 16, 3 epoch)하여 베이스라인 성능을 보여준다.
  5. 평가 – 정확도, macro‑F1, 클래스별 혼동 행렬을 보고했으며, 전체 분류 체계와 축소된 MI‑스타일 라벨 집합 간 차이를 검증하는 소거 실험도 수행했다.

Results & Findings

모델정확도Macro‑F1
BERT‑base71.4 %0.68
RoBERTa‑large73.9 %0.71
MI‑only baseline (10 classes)62.1 %0.55
  • 세분화된 분류 체계는 기존 MI‑스타일 라벨 집합에 비해 macro‑F1가 약 10 % 상승하여, 미묘한 상담 전략을 더 잘 구분한다는 것을 보여준다.
  • 오류 분석 결과, 가장 많은 혼동은 의미적으로 인접한 라벨(예: “반영적 경청” vs. “긍정”) 사이에서 발생했으며, 이는 대화 이력을 활용한 보다 풍부한 컨텍스트 모델링이 성능 향상에 기여할 수 있음을 시사한다.
  • 사전학습된 체크포인트를 공개함으로써 개발자는 플러그‑앤‑플레이 방식으로 분류기를 downstream 애플리케이션에 바로 적용할 수 있다.

Practical Implications

  • 챗봇 향상 – 정신건강 대화형 에이전트를 개발하는 팀은 이 분류기를 활용해 특정 치료사 전략(예: “개방형 질문”, “검증”)을 실시간으로 감지하고 응답을 조정함으로써 보다 공감적이고 효과적인 상호작용을 구현할 수 있다.
  • 원격 치료 플랫폼의 품질 보증 – 상담사와 내담자 발화를 자동으로 태깅하면 수동 차트 검토 없이도 컴플라이언스 모니터링, 치료사 교육, 결과 분석을 지원한다.
  • 연구용 벤치마크 – OnCoCo 1.0은 정신건강 분야에서 다중 라벨, 계층형, 혹은 few‑shot 학습 기법을 실험할 수 있는 즉시 사용 가능한 테스트베드다.
  • 기존 파이프라인과 통합 – 데이터셋과 모델이 표준 Hugging Face 포맷으로 제공되므로, 이미 BERT/RoBERTa를 감정 분석, 의도 탐지, 대화 행위 분류 등에 활용하고 있는 파이프라인에 손쉽게 삽입할 수 있다.

Limitations & Future Work

  • 데이터 범위 – 본 코퍼스는 단일 상담 서비스에서 수집된 약 2.8 k 메시지만 포함하고 있어, 문화적 맥락이나 다른 치료 방식에 대한 일반화 가능성이 제한될 수 있다.
  • 단일 발화 중심 – 라벨이 메시지 단위로만 부여되며 대화 이력을 명시적으로 모델링하지 않는다; 향후 연구에서는 메모리를 갖춘 트랜스포머나 RNN 등 순차 모델을 탐색할 수 있다.
  • 클래스 불균형 – 일부 세분화 카테고리는 매우 적은 빈도로 등장해 클래스별 성능이 낮게 나타난다; 데이터 증강이나 계층형 분류와 같은 기법이 제안된다.
  • 윤리적 고려사항 – 데이터는 익명화되었지만, 정신건강 환경에 자동 분류기를 배포할 경우 프라이버시와 편향 문제에 대한 신중한 거버넌스가 필요하다.

저자들은 OnCoCo를 다국어 확장, 세션 결과와 같은 풍부한 메타데이터 추가, 그리고 instruction‑tuned LLM과 같은 최신 아키텍처 벤치마크로 확장할 계획이다.

Authors

  • Jens Albrecht
  • Robert Lehmann
  • Aleksandra Poltermann
  • Eric Rudolph
  • Philipp Steigerwald
  • Mara Stieler

Paper Information

  • arXiv ID: 2512.09804v1
  • Categories: cs.CL, cs.LG
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »