Tenacious-Bench v0.1: 소규모 B2B sales-outreach 벤치마크와 오염 검사

발행: (2026년 5월 2일 PM 07:22 GMT+9)
5 분 소요
원문: Dev.to

Source: Dev.to

Overview

일반적인 영업 벤치마크는 실제 아웃바운드 에이전트가 실패하는 방식을 놓치기 쉽습니다: 약한 신호에 대한 과장, 안전하지 않은 “벤치” 약속, 푸시성 팔로업으로 변질되는 어조, 그리고 영업 담당자가 약속한 내용과 실제 제공 가능한 내용 사이의 격차 등. 클래스 프로젝트(TRP1 Week 11)를 위해 Tenacious‑Bench v0.1을 만들었습니다. 이는 일반적인 친절함이 아니라 위와 같은 실패 모드를 겨냥한, 컴팩트하고 기계적으로 점수를 매기는 작업 세트입니다.

What’s in the dataset

공개 릴리스는 Hugging Face에 있습니다: .
현재 허브 뷰어에서는 168개의 행이 표시되며, 다음과 같이 나뉩니다:

  • train: 105 행
  • validation: 63 행

작업은 여러 저작 방식—프로그램matic 스윕, 다중 LLM 합성 후 심사 필터링, 트레이스 기반 시나리오, 손수 만든 적대적 사례—을 혼합하고 있어, 벤치가 단일 생성기 독점 구조가 아닙니다.

각 행에는 다음이 포함됩니다:

  • 구조화된 입력(잠재 고객 컨텍스트, 스택, 인원 수, 신호 신뢰도, 벤치 가용성 등)
  • 후보 아웃리치 페이로드(제목 / 본문 / CTA)
  • 명시적인 정답 기대치(예: 언제 핸드오프하고 언제 자격 판단할지)
  • 버전 관리된 채점 루브릭으로, 손으로 휘두르는 것이 아니라 재현 가능한 점수를 제공합니다

Why contamination and provenance matter

합성 벤치마크는 지루한 방식으로 누수가 발생합니다: 분할 간에 거의 동일한 문구가 존재하거나, 임베딩 이웃이 너무 가깝거나, “평가” 작업이 사실상 훈련 시나리오와 날짜만 바뀐 경우 등. 저는 다음을 수행합니다:

  • n‑gram 중복 검사
  • 임베딩 유사도 분석
  • 명시적인 신호‑윈도우 / 출처 정책(훈련/개발 vs. 보류된 시간 라벨링)

결과는 저장소의 JSON 보고서에 기록됩니다. 목표는 완벽함이 아니라 누수를 가시화하고 조치 가능하게 만드는 것입니다.

Training angle (Path B)

여기서는 거대한 SFT 코퍼스를 공개하지 않습니다; 프로젝트는 선호도 기반 비평가 경로(ORPO/DPO‑스타일 데이터 준비 + LoRA 훈련)를 강조하여 일관성 결여와 안전하지 않은 약속을 잡아냅니다. 데이터셋은 리뷰어가 실제로 로드할 수 있는 아티팩트이며, 훈련 코드와 로그는 프로젝트 README와 함께 제공합니다.

Limitations (stated plainly)

  • 작업은 합성이며 영어 중심입니다; 실시간 A/B 테스트나 컴플라이언스 검토를 대체하지 않습니다.
  • 이 벤치는 제품 팀이 영업 에이전트를 반복적으로 개선하기 위한 회귀 테스트용이며, 실제 현장 성과를 증명하는 것이 아닙니다.

Call to action

아웃바운드 에이전트를 구축하고 있다면, 이 작업 중 일부에 모델을 평가하고 내부 루브릭과 비교해 보세요. 특히 모델이 “유창”하지만 벤치/신호 안전성을 위반하는 경우에 관심이 있습니다—그러한 행이 다음에 확장할 가치가 있는 행입니다.

0 조회
Back to Blog

관련 글

더 보기 »