[Paper] ShareChat: 실제 환경에서의 챗봇 대화 데이터셋
발행: (2025년 12월 20일 오전 02:47 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.17843v1
개요
ShareChat 논문은 다섯 개 주요 LLM 채팅 서비스(ChatGPT, Claude, Gemini, Perplexity, Grok)에서 수집한 실제 챗봇 대화의 방대한 크로스‑플랫폼 데이터셋을 소개합니다. 각 플랫폼의 고유 UI 단서—예를 들어 추론 과정, 인용 링크, 코드 스니펫—를 보존함으로써, 이 데이터셋은 연구자와 엔지니어에게 LLM‑기반 어시스턴트와 사용자가 실제로 상호작용하는 방식을 훨씬 더 풍부하게 보여줍니다.
주요 기여
- 가장 큰 공개 멀티‑플랫폼 LLM 채팅 코퍼스: 142,808개의 대화(≈ 660 k 턴)로 다섯 주요 채팅 서비스를 포괄.
- 네이티브 인터페이스 어포던스 유지: 추론 단계, 출처 URL, 코드 블록 및 기타 UI‑특정 아티팩트를 그대로 보존.
- 광범위한 언어 커버리지: 101개 언어로 된 대화, 전 세계 사용을 반영.
- 확장된 컨텍스트 윈도우 및 깊이: 많은 대화가 기존 데이터셋의 일반적인 2–4 k 토큰 제한을 초과하여 장기 기억 및 다중 턴 추론 연구에 활용 가능.
- 세 가지 시연 분석:
- 의도 충족도의 프록시로서 대화 완전성
- LLM의 인용 행동
- 2023년 4월부터 2025년 10월까지 사용 패턴의 시간적 변화
방법론
- 데이터 수집 – 채팅 로그를 포함하거나 공유하는 공개 URL(예: 포럼 게시물, 소셜 미디어 스레드, 커뮤니티 아카이브)을 플랫폼별 크롤러를 사용해 스크랩했습니다. 저자들은 실제 사용자‑어시스턴트 교환을 필터링하고 중복을 제거했습니다.
- 정규화 및 주석 달기 – 각 턴을 구조화된 JSON 레코드로 파싱하여 다음을 보존했습니다:
platform(ChatGPT, Claude 등)turn_id,speaker(user/assistant)content(원시 markdown/텍스트)metadata(타임스탬프, 언어, “thought” 블록, 인용 링크, 코드 펜스와 같은 UI 요소)
- 품질 관리 – 자동 휴리스틱(스팸 탐지, 언어 식별)과 수동 샘플 검사를 결합해 데이터셋이 실제적이고 고품질의 상호작용을 반영하도록 보장했습니다.
- 분석 파이프라인 – 저자들은 대화 완전성(사용자 후속 질문 대비 종료 비율), 인용 URL 추출, 시간에 따른 사용 통계 집계를 계산하는 경량 스크립트를 구축했습니다.
결과 및 발견
- 대화 완전성: 대화의 약 68 %가 사용자가 “감사합니다” 또는 “문제가 해결되었습니다”라고 표현하며 종료되어 높은 만족도를 나타냅니다; 나머지 32 %는 추가 질문을 보여주며 의도 미충족 또는 모호한 응답을 시사합니다.
- 인용 행동: Claude와 Gemini는 사실 기반 답변의 약 45 %에 출처 링크를 포함하는 반면, ChatGPT와 Perplexity는 덜 자주(~20 %) 인용합니다. Grok은 인용을 거의 제공하지 않으며(<5 %).
- 시간적 추세: 2023‑2024년부터 2025년까지 코드‑생성 턴이 전체 턴의 12 %에서 27 %로 증가했으며, 이는 개발자 중심 사용이 급증했음을 반영합니다. 다국어 대화도 급격히 증가하여 힌디어, 스페인어, 아랍어가 각각 2025년에 5 % 임계값을 넘어섰습니다.
- 컨텍스트 길이: 평균 대화 길이는 4.6 k 토큰에 도달했으며, 가장 긴 대화는 30 k 토큰을 초과하여 대부분 기존 벤치마크 데이터셋의 한계를 크게 넘어섭니다.
실용적 시사점
- Prompt‑engineering research: 긴 컨텍스트 윈도우는 메모리 관리 전략, 검색 기반 생성, 그리고 대규모 체인‑오브‑쓰레드 프롬프트 테스트를 가능하게 합니다.
- Tooling for developers: IDE 플러그인이나 코드 어시스턴트 제품은 풍부한 코드 아티팩트 부분을 학습시켜 언어별 제안 및 오류 처리 패턴을 개선할 수 있습니다.
- Compliance & citation auditing: 인용 메타데이터는 출처를 명시해야 하는 시스템(예: 법률, 의료, 학술 어시스턴트)을 구축하기 위한 실제 기준을 제공합니다.
- Multilingual product rollout: 101개 언어가 포함되어 있어 제품 팀은 현지화 격차를 평가하고 실제 사용 신호를 기반으로 언어 지원 우선순위를 정할 수 있습니다.
- User‑experience design: 어떤 UI 요소(예: “thought” 버블, 인라인 인용)가 대화 완성도를 높이는지 파악하면 차세대 채팅 인터페이스 설계에 도움이 됩니다.
제한 사항 및 향후 연구
- Public‑URL bias: 데이터셋은 사용자가 공개적으로 공유하기로 선택한 대화만을 포착하므로, “흥미로운” 혹은 “성공적인” 상호작용이 과대 대표되고 일상적인 대화나 실패한 시도는 과소 대표될 가능성이 있습니다.
- Platform coverage: 다섯 개 주요 서비스가 포함되어 있지만, 신생 혹은 틈새 챗봇(예: 도메인‑특화 어시스턴트)은 제외되어 전체 생태계에 대한 일반화 가능성이 제한됩니다.
- Temporal cutoff: 데이터는 2025년 10월까지이며, 그 이후의 급속한 모델 업데이트는 인용 또는 코드 생성 행동을 변화시킬 수 있습니다.
- Future directions suggested by the authors:
- 공유 편향을 줄이기 위해 옵트‑인(private) 로그를 추가하여 코퍼스를 확장
- 최신 플랫폼 및 멀티모달(이미지/비디오) 상호작용으로 범위 확대
- ShareChat의 고유한 특성을 직접 활용하는 벤치마크 과제(예: 인용 검증, 장기 컨텍스트 추론) 개발
저자
- Yueru Yan
- Tuc Nguyen
- Bo Su
- Melissa Lieffers
- Thai Le
논문 정보
- arXiv ID: 2512.17843v1
- 카테고리: cs.CL, cs.AI, cs.HC
- 발행일: 2025년 12월 19일
- PDF: Download PDF