AI 모델의 예측 설명 능력 향상

발행: 1일 전 (2026년 3월 9일 PM 01:00 GMT+9)

11 분 소요

Source: MIT News - AI

의료 진단에서의 고위험 설명 가능성

고위험 상황인 의료 진단에서는 사용자가 컴퓨터 비전 모델이 특정 예측을 하게 만든 원인을 알고 싶어 합니다. 이를 통해 모델 출력에 신뢰를 둘 수 있는지 판단할 수 있기 때문입니다.

컨셉 병목 모델링은 인공지능 시스템이 의사결정 과정을 설명하도록 하는 한 방법입니다. 이 방법은 딥러닝 모델이 인간이 이해할 수 있는 일련의 개념을 사용해 예측하도록 강제합니다. 새로운 연구에서 MIT 컴퓨터 과학자들은 모델이 더 높은 정확도와 더 명확하고 간결한 설명을 제공하도록 유도하는 방법을 개발했습니다.

모델이 사용하는 개념은 일반적으로 인간 전문가에 의해 사전에 정의됩니다. 예를 들어, 임상의는 “군집된 갈색 점” 및 *“다양한 색소 침착”*과 같은 개념을 제시해 의료 영상이 흑색종인지 예측하도록 할 수 있습니다.

이전에 정의된 개념은 특정 작업에 부적절하거나 세부 사항이 부족할 수 있어 모델 정확도를 떨어뜨립니다. 새로운 방법은 특정 작업을 수행하도록 훈련되는 동안 모델이 이미 학습한 개념을 추출하고, 이를 사용하도록 강제함으로써 기존 컨셉 병목 모델보다 더 나은 설명을 제공합니다.

이 접근법은 목표 모델에서 자동으로 지식을 추출하고 이를 일상 언어 개념으로 변환하는 두 개의 특수화된 머신러닝 모델을 활용합니다. 최종적으로 이 기술은 사전 학습된 모든 컴퓨터 비전 모델을 개념을 사용해 추론 과정을 설명할 수 있는 모델로 변환할 수 있습니다.

“어느 정도 우리는 이러한 컴퓨터 비전 모델의 생각을 읽을 수 있기를 원합니다. 컨셉 병목 모델은 사용자가 모델이 무엇을 생각하고 왜 특정 예측을 했는지 알 수 있게 하는 한 방법입니다. 우리의 방법은 더 좋은 개념을 사용하므로 정확도가 높아지고 궁극적으로 블랙박스 AI 모델의 책임성을 향상시킬 수 있습니다.”라고 MIT CSAIL(Computer Science and Artificial Intelligence Laboratory) 방문 대학원생이자 연구를 수행한 Antonio De Santis는 말합니다.

그는 **논문에 대한 작업**에서 Schrasing Tong SM ’20, PhD ’26, Marco Brambilla(밀라노 폴리테크닉 대학교 컴퓨터 과학 및 공학 교수), 그리고 수석 저자 Lalana Kagal(CSAIL 수석 연구 과학자)와 함께했습니다. 이 연구는 국제 학습 표현 컨퍼런스(International Conference on Learning Representations)에서 발표될 예정입니다.

더 나은 병목 만들기

Concept bottleneck models (CBMs)은 AI 설명 가능성을 향상시키기 위한 인기 있는 접근 방식입니다. 이러한 기법은 컴퓨터 비전 모델이 이미지에 존재하는 개념을 예측하도록 강제한 뒤, 그 개념들을 사용해 최종 예측을 수행함으로써 중간 단계를 추가합니다. 이 중간 단계, 즉 병목은 사용자가 모델의 추론 과정을 이해하는 데 도움을 줍니다.

예시: 새 종류를 식별하는 모델이 **“노란 다리”**와 **“파란 날개”**와 같은 개념을 선택한 뒤, 벌새를 예측할 수 있습니다.

이러한 개념들은 종종 인간이나 대규모 언어 모델(LLM)에 의해 사전에 생성되기 때문에, 특정 작업에 맞지 않을 수 있습니다. 또한, 미리 정의된 개념 집합이 주어지더라도 모델이 원치 않는 학습 정보를 활용하는 경우가 있는데, 이를 정보 누출(information leakage) 문제라고 합니다.

“이 모델들은 성능을 최대화하도록 학습되기 때문에, 우리가 알지 못하는 개념을 비밀리에 사용할 수 있습니다,” 라고 De Santis가 설명합니다.

MIT 아이디어

연구진은 모델이 방대한 양의 데이터를 학습하면서 이미 해당 작업에 필요한 개념들을 습득했을 가능성이 있다고 판단했습니다. 그래서 이미 존재하는 지식을 추출하고 이를 사람이 이해할 수 있는 텍스트로 변환하는 CBM을 구축하려고 했습니다.

Sparse Autoencoder – 모델이 학습한 가장 관련성 높은 특징들을 선택적으로 추출해 소수의 개념으로 재구성하는 특수 딥러닝 모델.
Multimodal LLM – 각 개념을 일상 언어로 설명하고, 데이터셋의 이미지에 어떤 개념이 존재하고 없는지를 식별하여 이미지에 주석을 달아줍니다.

연구진은 이 주석이 달린 데이터셋을 사용해 개념‑병목 모듈을 학습시켜 개념을 인식하도록 합니다. 그런 다음 이 모듈을 목표 모델에 통합하여, 연구진이 추출한 학습된 개념 집합만을 사용해 예측하도록 강제합니다.

개념 제어

방법을 개발하는 데는 LLM이 개념을 올바르게 주석 달도록 보장하는 것부터 희소 오토인코더가 인간이 이해할 수 있는 개념을 식별했는지 판단하는 것까지 많은 도전 과제를 극복해야 했습니다.

모델이 알 수 없거나 원하지 않는 개념을 사용하는 것을 방지하기 위해 예측당 다섯 개의 개념만 사용하도록 제한합니다. 이는 모델이 가장 관련성 높은 개념을 선택하도록 강제하고 설명을 보다 이해하기 쉽게 만듭니다.

그들이 새 방법을 최신 CBM과 비교했을 때, 새 조류 종 예측 및 의료 영상에서 피부 병변 식별과 같은 작업에서 가장 높은 정확도를 달성하면서도 더 정밀한 설명을 제공했습니다. 또한 이 접근법은 데이터셋의 이미지에 더 적용 가능한 개념을 생성했습니다.

“우리는 원래 모델에서 개념을 추출하는 것이 다른 CBM보다 성능이 좋을 수 있음을 보여주었지만, 해석 가능성과 정확성 사이의 트레이드오프가 여전히 존재합니다. 해석이 불가능한 블랙박스 모델이 여전히 우리보다 성능이 좋습니다.”라고 De Santis가 말했습니다.

향후 방향

Information leakage – 팀은 잠재적인 해결책을 연구할 계획이며, 원하지 않는 개념이 새어나오지 않도록 추가적인 concept‑bottleneck 모듈을 도입할 수 있습니다.
Scaling up – 그들은 더 큰 멀티모달 LLM을 사용해 더 큰 학습 데이터셋에 주석을 달아 성능을 향상시키려 합니다.

“이 작업에 매우 흥미를 느낍니다. 해석 가능한 AI를 매우 유망한 방향으로 추진하고, 상징 AI와 지식 그래프 사이에 자연스러운 다리를 만들기 때문입니다,” 라고 And가 말했습니다.

Reas Hotho, University of Würzburg의 데이터 과학 학과 교수 겸 학과장(본 연구에 참여하지 않음)은 다음과 같이 말했습니다:
“인간이 정의한 개념만이 아니라 모델 자체의 내부 메커니즘으로부터 concept bottlenecks를 도출함으로써, 모델에 더 충실한 설명을 제공하고 구조화된 지식을 활용한 후속 작업의 많은 기회를 열어줍니다.”

자금 지원 및 감사

Progetto Rocca 박사 펠로우십,
국가 회복 및 회복력 계획 하의 이탈리아 대학 및 연구부,
Thales Alenia Space, 및
차세대 EU(NextGenerationEU) 프로젝트 하의 유럽 연합.

AI 모델의 예측 설명 능력 향상

의료 진단에서의 고위험 설명 가능성

더 나은 병목 만들기

MIT 아이디어

개념 제어

향후 방향

자금 지원 및 감사

관련 글

Attention Is All You Need — 전체 논문 분석

FAQ: Agentic AI 보안 위협 — 가장 궁금한 질문에 답변드립니다

에이전트 스코프 크리프 문제: 제한 없이 성장하는 AI 에이전트가 신뢰성을 잃는 이유

피해야 할 세 가지 OpenClaw 실수와 해결 방법