[논문] 다중어 표현 분류: 감독 학습 vs 시연 기반 인컨텍스트 학습

발행: (2026년 6월 6일 AM 02:34 GMT+9)
3 분 소요
원문: arXiv

Source: arXiv - 2606.07479v1

개요

터키어 관용적 경동사구(LVC)는 다중단어 표현 처리에 어려움을 주는데, 이는 겉보기 형태는 완전한 문자적 동사‑목적어 조합과 동일하지만 실제로는 하나의 부분적으로 관용적인 술어로 작동하기 때문이다. 우리는 터키어 LVC 탐지를 이진 분류 작업(문자적 의미 vs. 관용적 의미)으로 정의하고, 부정 예시가 매치된 통제 집합(N=147)을 사용해 평가한다: 도메인 외 무작위 문장과 도메인 내 문자적 통제(NLVC) 그리고 LVC 양성 예시. 우리는 감독 학습 기반 터키어 인코더 베이스라인(BERTurk + 분류기 헤드)을 세 가지 패밀리의 지시 튜닝된 대형 언어 모델(LLM)과 비교한다. 비교는 제로샷, 원샷, 그리고 몇 샷 프롬프트를 사용하며, 시범 예시가 오류 프로파일에 미치는 영향을 분석한다. 제로샷에서는 LLM이 부정 예시에는 잘 작동하지만 LVC 재현율이 매우 낮다. 원샷 프롬프트는 LVC 탐지를 크게 향상시키지만 모델별 강한 편향을 유발해 LVC를 과다 예측하거나 과소 예측하게 만든다. 보다 풍부한 몇 샷 프롬프트는 보정 효과를 높이고 GPT-OSS-20B와 Qwen 2.5-14B에서 전반적으로 견고한 성능을 보여준다. 전체적으로, 결과는 터키어 메타언어 분류에서 프롬프트 민감도가 크게 작용함을 강조한다: 감독 기반 베이스라인은 여전히 경쟁력이 있으며, 신중히 구성된 시범 예시를 사용한 프롬프트 LLM은 LVC에서 이를 능가하거나 동등하게 맞출 수 있다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

  • cs.CL
  • cs.AI

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여한다.

저자

  • Sercan Karakaş
  • Yusuf Şimşek

논문 정보

  • arXiv ID: 2606.07479v1
  • 분류: cs.CL, cs.AI
  • 발표일: 2026년 6월 5일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »