[논문] 표면 형태 변화가 검열 판단에 미치는 영향: 코드 혼합 워크플로 불안정성에 대한 쌍별 연구

발행: 6일 전 (2026년 6월 4일 PM 12:34 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.05654v1

개요

혐오 발언 조정은 종종 깨끗한 영어 입력에 대한 분류로 평가되지만, 실제 시스템은 콘텐츠를 허용, 플래그, 검토와 같은 행동으로 라우팅해야 합니다. 우리는 동일한 기본 콘텐츠가 깨끗한 영어와 타밀어‑영어 코드‑믹스로 표현된 쌍별 평가 설정을 사용해 코드‑믹스 입력에서 이 워크플로우가 어떻게 변하는지 조사했습니다. 깨끗한 영어 개발 데이터에서 조정된 임계값 하에서, 코드‑믹스 입력은 상당한 행동 불안정을 초래했으며, 쌍별 깨끗‑대‑코드‑믹스 결정 전환 비율은 0.265였습니다. 주요 워크플로우 영향은 검토 부담 증가와 혐오가 아닌 콘텐츠에 대한 잘못된 플래그 비율 상승이었습니다: 검토 비율이 0.138에서 0.297로 상승하고, 비혐오 잘못 플래그 비율이 0.069에서 0.104로 증가했습니다. 타밀어 전용 입력은 전반적으로 더 큰 성능 저하를 보였으며, 이는 동일한 코드‑믹스 불안정 패턴이라기보다 언어 커버리지 제한이 더 넓다는 것을 시사합니다. 간단한 불일치 기반 연기 규칙은 스트레스가 큰 입력에 대한 자동 오류를 감소시키지만, 검토 부하만 증가시킵니다. 이러한 결과는 워크플로우 수준의 평가가 표준 분류 요약에서는 놓칠 수 있는 조정 실패를 드러낸다는 점을 보여줍니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.SE
cs.AI
cs.LG

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.SE 분야의 발전에 기여합니다.

저자

Suraj Babu Thimma Krishnaram

논문 정보

arXiv ID: 2606.05654v1
분류: cs.SE, cs.AI, cs.LG
출판일: 2026년 6월 4일
PDF: PDF 다운로드

[논문] 표면 형태 변화가 검열 판단에 미치는 영향: 코드 혼합 워크플로 불안정성에 대한 쌍별 연구

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법