정확한 AI가 여전히 위험하게 불완전할 때
Source: VentureBeat
번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 본문을 알려주시면 도와드리겠습니다.
소개
일반적으로 AI를 구축하고, 학습시키며, 배포할 때 기업들은 정확성을 최우선으로 합니다. 이는 의심할 여지 없이 중요한 요소이지만, 법률과 같이 매우 복잡하고 미묘한 산업에서는 정확성만으로는 충분하지 않습니다. 이해관계가 클수록 기준도 높아집니다: 모델 출력은 관련성, 권위, 인용 정확성, 그리고 환각 비율을 평가받아야 합니다.
“‘완벽한 AI’라는 것은 존재하지 않습니다. 특히 법률과 같이 복잡하고 고위험 분야에서는 100% 정확성이나 100% 관련성을 달성할 수 없기 때문입니다.” — Min Chen, LexisNexis SVP 및 Chief AI Officer, VentureBeat Beyond the Pilot 팟캐스트.
목표는 그 불확실성을 가능한 한 많이 관리하고 이를 일관된 고객 가치로 전환하는 것입니다. “결국 우리에게 가장 중요한 것은 AI 결과의 품질이며, 이는 실험, 반복, 개선을 지속하는 여정입니다.”라고 Chen이 말했습니다.
다면적인 질문에 대한 ‘완전한’ 답변 얻기
모델과 그 출력물을 평가하기 위해 Chen 팀은 “유용성”을 측정하는 6가지가 넘는 “하위 지표”를 설정했습니다. 여기에는 권위, 인용 정확도, 환각 비율 등 여러 요소와 함께 “포괄성”이 포함됩니다. 이 지표는 생성형 AI 응답이 사용자의 법률 질문의 모든 측면을 완전히 다루는지를 평가합니다.
“그래서 단순히 관련성만 중요한 것이 아닙니다. 완전성은 법적 신뢰성과 직접적으로 연결됩니다,” 라고 Chen이 설명합니다.
- 예시: 사용자가 다섯 가지 별개의 법적 고려사항을 모두 포함하는 답변을 요구하는 질문을 합니다. 생성형 AI가 그 중 세 가지만 정확히 다룰 수 있습니다. 관련성은 있지만, 부분적인 답변은 불완전하며 사용자 입장에서는 충분하지 않습니다. 이는 오해를 불러일으키고 실제 위험을 초래할 수 있습니다.
- 인용: 인용은 사용자의 질문에 의미적으로 관련될 수 있지만, 최종적으로 법원에서 뒤집힌 주장이나 사례를 가리킬 수도 있습니다. “우리 변호사들은 이를 인용할 수 없다고 판단합니다,” 라고 Chen이 말했습니다. “인용할 수 없으면, 유용하지도 않습니다.”
표준 RAG를 넘어
LexisNexis는 2023년에 플래그십 생성 AI 제품인 Lexis+ AI—법률 초안 작성, 연구 및 분석을 위한 AI 도구—를 출시했습니다. 이는 표준 Retrieval‑Augmented Generation (RAG) 프레임워크와 하이브리드 벡터 검색을 기반으로 하여 LexisNexis의 신뢰할 수 있는 권위 있는 지식 베이스에 응답을 근거합니다.
그 후 2024년에 개인 법률 비서인 Protégé를 발표했습니다. 이 에이전트는 순수 의미 검색의 “핵심 제한점”을 극복하기 위해 벡터 검색 위에 지식 그래프 레이어를 추가했습니다. 의미 검색은 “맥락상 관련된 콘텐츠를 매우 잘 찾아내지만”, 권위 있는 답변을 항상 보장하지는 “항상 보장하지 않는다”고 Chen이 언급했습니다.
프로세스
- 초기 의미 검색이 관련성이 있다고 판단되는 콘텐츠를 반환합니다.
- Chen 팀은 반환된 결과를 “법률 포인트” 그래프를 통해 탐색하여 가장 권위 있는 문서를 추가로 필터링합니다.
이 외에도 팀은 에이전시 그래프를 개발하고 자동화를 가속화하여 에이전트가 복잡한 다단계 작업을 계획하고 실행할 수 있도록 하고 있습니다. 예시:
- 플래너 에이전트는 사용자 질문을 여러 하위 질문으로 분해하는 연구 Q&A용 에이전트입니다. 인간 사용자는 이를 검토하고 편집하여 최종 답변을 다듬고 개인화할 수 있습니다.
- 리플렉션 에이전트는 거래 문서 초안을 자동으로 동적으로 비판하고, 피드백을 반영해 실시간으로 문서를 다듬는 초안 작성용 에이전트입니다.
Chen은 이러한 진보가 인간을 대체하기 위한 것이 아니라고 강조합니다. “인간 전문가와 AI 에이전트는 함께 배우고, 추론하고, 성장할 수 있습니다. 저는 미래를 인간과 AI 간의 더 깊은 협업으로 보고 있습니다.”
Podcast topics
- LexisNexis가 Henchman을 인수함으로써 자체 LexisNexis 데이터와 고객 데이터를 활용해 AI 모델을 기반화한 방법
- 결정론적 평가와 비결정론적 평가의 차이점
- 기업이 실험에 급급하기 전에 KPI와 성공 정의를 식별해야 하는 이유
- 비용, 속도, 품질이라는 “삼각형” 핵심 요소에 집중하는 중요성