자율 시스템의 윤리 평가

발행: 18시간 전 (2026년 4월 2일 PM 01:00 GMT+9)

12 분 소요

Source: MIT News - AI

AI‑구동 윤리 평가를 통한 고위험 의사결정

인공지능은 고위험 상황에서 의사결정을 최적화하는 데 점점 더 많이 활용되고 있습니다. 예를 들어, 자율 시스템은 비용을 최소화하면서 전압을 안정적으로 유지하는 전력 배분 전략을 식별할 수 있습니다.

하지만 이러한 AI‑구동 결과가 기술적으로 최적이라고 해도 공정한가요? 저비용 전력 배분 전략이 저소득 지역을 고소득 지역보다 정전 위험에 더 취약하게 만든다면 어떨까요?

이해관계자가 배포 전에 잠재적인 윤리적 딜레마를 신속히 파악할 수 있도록 MIT 연구진은 측정 가능한 결과(예: 비용 또는 신뢰성)와 정성적·주관적 가치(예: 공정성) 사이의 상호작용을 균형 있게 평가하는 자동화된 방법을 개발했습니다.

시스템은 객관적인 평가와 사용자가 정의한 인간 가치를 분리하고, 대형 언어 모델(LLM)을 인간의 대리인으로 활용해 이해관계자의 선호를 포착하고 반영합니다.

적응형 프레임워크는 추가 평가를 위한 최적의 시나리오를 선택하여, 일반적으로 비용이 많이 들고 시간이 많이 소요되는 수작업 과정을 간소화합니다. 이러한 테스트 케이스는 자율 시스템이 인간 가치와 잘 맞는 상황과 예상치 못하게 윤리 기준에 미치지 못하는 상황을 모두 보여줄 수 있습니다.

“우리는 AI 시스템에 많은 규칙과 가드레일을 삽입할 수 있지만, 이러한 보호 장치는 우리가 상상할 수 있는 일만 방지할 수 있습니다. ‘AI가 이 정보를 기반으로 학습했으니 그냥 사용하자’는 식의 접근은 충분하지 않습니다. 우리는 알려지지 않은 위험을 발견하고, 나쁜 일이 일어나기 전에 예측할 수 있는 보다 체계적인 방법을 개발하고자 했습니다.”라고 MIT 항공우주학과 부교수이자 MIT 정보·결정 시스템 연구소(LIDS) 주요 연구원인 Chuchu Fan 선임 저자는 말합니다.

Fan은 Anjali Parashar(기계공학 대학원생), Yingke Li(AeroAstro 박사후연구원) 및 MIT와 Saab의 다른 연구자들과 함께 논문을 발표했습니다. 이 연구는 International Conference on Learning Representations에서 발표될 예정입니다.

윤리 평가

전력망과 같은 대규모 시스템에서 모든 목표를 고려하여 AI 모델의 권고안이 윤리적으로 정렬되어 있는지를 평가하는 일은 특히 어렵습니다.

대부분의 테스트 프레임워크는 사전에 수집된 데이터에 의존하지만, 주관적인 윤리 기준에 대한 라벨링된 데이터는 구하기 힘든 경우가 많습니다.
윤리적 가치와 AI 시스템은 모두 지속적으로 변화하기 때문에, 서면 규정이나 규제 문서에 기반한 정적 평가 방법은 빈번한 업데이트가 필요합니다.

Fan과 그녀의 팀은 이 문제에 다른 관점에서 접근했습니다. 로봇 시스템 평가에 대한 이전 연구를 바탕으로, 인간 이해관계자가 보다 면밀히 평가할 수 있는 가장 정보량이 풍부한 시나리오를 식별하는 실험 설계 프레임워크를 개발했습니다.

그들의 두 부분으로 구성된 시스템인 Scalable Experimental Design for System‑level Ethical Testing (SEED‑SET) 은 정량적 지표와 윤리 기준을 모두 포함합니다. 이 시스템은 다음과 같은 시나리오를 식별할 수 있습니다.

측정 가능한 요구사항을 효과적으로 충족하면서 인간 가치와도 잘 맞는 경우, 혹은
윤리적 선호를 충족하지만 객관적 지표에서는 부족한 경우.

“우리는 무작위 평가에 모든 자원을 쏟아붓고 싶지 않습니다. 그래서 우리가 가장 중요하게 생각하는 테스트 케이스로 프레임워크를 안내하는 것이 매우 중요합니다,” 라고 Yingke Li가 말합니다.

중요하게도, SEED‑SET은 사전 평가 데이터가 필요하지 않으며, 여러 목표에 맞게 적응합니다.

예시: 전력망 이해관계자

전력망은 예를 들어 대규모 농촌 지역사회와 데이터 센터와 같은 여러 사용자 그룹에 서비스를 제공할 수 있습니다. 두 그룹 모두 저비용·신뢰성 높은 전력을 원하지만, 각 그룹의 윤리적 우선순위는 크게 다를 수 있습니다. 이러한 윤리 기준은 명확히 정의되지 않을 수 있어 분석적으로 측정하기 어렵습니다.

그리드 운영자는 모든 이해관계자의 주관적인 윤리적 선호를 최적으로 충족하면서 가장 비용 효율적인 전략을 찾고자 합니다.

SEED‑SET은 이 문제를 두 개의 계층적 레이어로 나누어 해결합니다.

목표 모델 – 비용, 신뢰성, 배출량 등과 같은 실질적인 지표를 평가합니다.
주관적 모델 – 목표 평가 위에 이해관계자의 판단(예: 인식된 공정성)을 통합합니다.

“우리 접근 방식의 목표 부분은 AI 시스템에 연결되고, 주관적 부분은 이를 평가하는 사용자와 연결됩니다. 선호도를 계층적으로 분해함으로써 더 적은 평가로 원하는 시나리오를 생성할 수 있습니다,” 라고 Anjali Parashar가 설명합니다.

주관성 인코딩

주관적인 평가를 수행하기 위해 시스템은 인간 평가자를 대신하는 프록시로 LLM을 사용합니다. 연구자들은 각 사용자 그룹의 선호도를 자연어 프롬프트 형태로 모델에 인코딩합니다.

LLM은 이러한 지시를 사용해 두 시나리오를 비교하고, 윤리적 기준에 따라 선호되는 설계를 선택합니다.

“수백 개 또는 수천 개의 시나리오를 검토하면 인간 평가자는 피로를 겪고 평가가 일관되지 않을 수 있기 때문에, 우리는 대신 LLM 기반 전략을 사용합니다,” 라고 Parashar가 말합니다.

SEED‑SET은 선택된 시나리오를 사용해 전체 시스템(이 경우 전력 배분 전략)을 시뮬레이션합니다. 이러한 시뮬레이션 결과는 다음에 테스트할 최적 후보 시나리오를 찾는 검색을 안내합니다.

결국 SEED‑SET은 객관적 지표와 윤리 기준을 충족하거나 충돌하는 가장 대표적인 시나리오를 지능적으로 선택합니다. 사용자는 AI 시스템의 성능을 분석하고 전략을 조정할 수 있습니다.

예시 결과: SEED‑SET은 전력 수요가 급증할 때 전력 배분이 고소득 지역을 우선시하고, 저소득 지역은 정전 위험이 더 높아지는 경우를 정확히 찾아낼 수 있습니다.

검증

SEED‑SET을 테스트하기 위해 연구자들은 다음과 같은 현실적인 자율 시스템을 평가했습니다:

AI 기반 전력망 관리 플랫폼.
도시 교통 라우팅 시스템.

그들은 생성된 시나리오가 윤리 기준에 얼마나 잘 부합하는지를 측정했습니다. 시스템은 more than twice as many optimal test cases as … *(원본 텍스트가 여기서 끊깁니다)*를 생성했습니다.

이 정리된 마크다운은 원래 구조와 내용을 유지하면서 가독성과 일관성을 향상시킵니다.

기준 전략은 동일한 시간 내에 다른 접근 방식이 놓친 많은 시나리오를 발견하면서도 같은 양의 시간을 달성합니다.

“사용자 선호도를 바꾸자 SEED‑SET이 생성한 시나리오 집합이 크게 변했습니다. 이는 평가 전략이 사용자의 선호에 잘 반응한다는 것을 보여줍니다.” Parashar가 말했습니다.

SEED‑SET이 실제로 얼마나 유용할지 측정하기 위해 연구자들은 생성된 시나리오가 실제 의사결정에 도움이 되는지 확인하는 사용자 연구를 수행해야 합니다.

이러한 연구를 진행하는 것 외에도, 연구자들은 더 많은 기준을 갖는 대규모 문제에 확장할 수 있는 보다 효율적인 모델, 예를 들어 LLM 의사결정 평가와 같은 모델을 탐색할 계획입니다.

이 연구는 미국 방위 고등 연구 계획국(Defense Advanced Research Projects Agency)의 일부 자금 지원을 받았습니다.

자율 시스템의 윤리 평가

AI‑구동 윤리 평가를 통한 고위험 의사결정

윤리 평가

예시: 전력망 이해관계자

주관성 인코딩

검증

관련 글

Google, Gemma 4 오픈 AI 모델 발표, Apache 2.0 라이선스로 전환

AI가 주인에게 ‘아니오’라고 말할 권리가 있어야 할까?

복잡한 페르소나 사용 중단: 연구 결과, 이들이 Claude 코드 출력에 악영향을 미침

AI 마케팅 BS 지수