AI와 학습 성과에 대한 이해

발행: 2일 전 (2026년 3월 4일 오전 09:00 GMT+9)

21 분 소요

Source: OpenAI Blog

Source: …

소개

교육은 AI가 가장 유망한 분야 중 하나입니다. ChatGPT와 같은 도구를 활용하면 언제 어디서든 모든 학생에게 맞춤형 학습 지원을 제공할 수 있습니다.

하지만 교육 분야는 AI가 학습 성과에 미치는 영향을 아직 충분히 이해하지 못한 초기 단계에 있습니다. 지난해 저희 팀은 Study Mode와 같은 도구 사용을 조사했으며, 학생 성적이 눈에 띄게 향상되는 긍정적인 결과를 발견했습니다. 동시에 중요한 질문이 제기되었습니다: AI가 학습자의 진행 상황에 미치는 영향을 최종 시험이 아닌 시간 경과에 따라 어떻게 평가할 수 있을까?

이는 더 넓은 생태계 차원의 과제입니다. 현재까지 대부분의 연구 방법은 시험 점수와 같은 좁은 성과 지표에 초점을 맞추고 있어, 실제 현장에서 AI와 함께 학습하는 학생들을 어떻게 평가하고, 그 사용이 시간이 지남에 따라 결과에 어떤 영향을 미치는지 파악하기 어렵습니다.

이 격차를 해소하기 위해 저희는 **학습 성과 측정 스위트(Learning Outcomes Measurement Suite)**를 개발했습니다. 이 프레임워크는 에스토니아 타르투 대학교와 스탠포드 학습 가속기(SCALE Initiative)와 협력하여 다양한 교육 맥락에서 장기적인 학습 성과를 측정하도록 설계되었습니다.

현재 무작위 대조 시험을 통해 광범위한 검증이 진행 중이며, Learning Lab(OpenAI 학습 연구 생태계) 내 설립 기관들과 함께 추가 연구가 계획되어 있습니다. 여기에는 애리조나 주립대학, UCL Knowledge Lab, MIT Media Lab의 연구자들이 참여하고 있으며, 이는 이전 공동 연구를 기반으로 합니다.

오늘은 측정 스위트가 어떻게 작동하는지와 그 중요성에 대한 개요를 공유합니다. 앞으로 더 많은 연구 결과를 발표하고, 전 세계 학교, 대학, 교육 시스템을 위한 공개 자원으로 스위트를 제공할 예정입니다.

“이 연구는 우리가 빠르게 학습할 수 있게 해줄 뿐만 아니라, AI를 학교에 신중하게 통합하는 방법에 대한 깊은 이해를 위한 토대를 마련합니다. 우리는 이러한 도구가 엄격한 학문적 학습을 지원하면서도 고차원적 사고, 창의성, 호기심, 그리고 학생들이 스스로를 학습자로서 신뢰하도록 돕는 방식을 이해하고자 합니다.”
– 수잔나 로브(Susanna Loeb), 스탠포드 대학교 교육학 교수 및 SCALE Initiative 학장

주요 요점

오늘날 AI가 학습에 미치는 영향을 조사하는 연구 방법은 성과에 대한 유망한 신호를 보여주지만, AI가 시간에 따라 학습 결과에 미치는 전체 그림을 포착하지는 못합니다.
Learning Outcomes Measurement Suite는 처음으로 종단 연구를 위한 표준 프레임워크를 제공하여 교육자, 연구자 및 기관이 다양한 맥락에서 AI가 학습 및 결과에 어떻게 영향을 미치는지 이해하도록 도울 것입니다.
OpenAI의 Learning Lab은 이 작업을 발전시키는 새로운 연구 생태계입니다. OpenAI는 분야가 계속 발전함에 따라 다양한 파트너와 함께 연구 결과를 발표할 예정입니다.

기원 및 초기 연구

학생들이 AI 도구를 사용해 공부하고 학습할 때는 빠른 답을 찾는 것부터 튜터와 같은 단계별 안내를 받으며 문제를 풀어가는 것까지 다양한 형태가 있습니다. 사용자가 더 깊은 이해와 기술 습득을 지원하는 방식으로 ChatGPT와 상호작용하도록 장려하기 위해 OpenAI는 작년에 Study Mode를 도입했습니다. 내부적으로 Study Mode는 교사, 과학자, 교육학 전문가와 협업해 만든 맞춤형 시스템 지시문을 기반으로 하며, 단순히 답을 제공하는 것이 아니라 발판 제공, 이해 확인, 안내 연습 등을 통해 진정한 학습을 지원하는 핵심 행동 집합을 반영합니다.

이러한 교육학적으로 정렬된 AI 상호작용 방식이 학습 성과 향상으로 이어지는지를 검증하기 위해, 우리는 신경과학 및 미시경제학 시험을 준비하는 300명 이상의 대학생을 대상으로 무작위 연구를 수행했습니다. 분석이 아직 진행 중이지만, 초기 결과는 Study Mode와 같은 기능을 통해 장려되는 교육학적으로 정렬된 AI 상호작용 방식이 학습 성과를 개선할 수 있다는 자신감을 줍니다. 이 연구를 통해 중요한 현실도 드러났습니다: 실제로 중요한 것은 성과와 연관된 생산적 행동이 시간이 지나도 지속 가능한가 여부입니다.

연구 설계

참가자는 세 그룹 중 하나에 배정되었습니다:

Control – 전통적인 온라인 리소스(Google 검색, YouTube)를 사용했으며 AI‑생성 개요 기능은 비활성화된 상태로 공부했습니다.
Study Mode Variant A – 학습 과정을 안내하도록 설계된 Study Mode 버전을 이용했습니다.
Study Mode Variant B – 약간 다른 형태의 Study Mode 버전을 이용했습니다.

사전 퀴즈와 온보딩 설문을 사전에 수집해 이전 강의 수강 경험, 공부 습관, 학업 자신감, AI 도구에 대한 친숙도 차이를 보정했습니다. 학생들은 각 시험 전에 제한된 시간 동안 Study Mode 세션을 진행했으며, 두 변형은 과목별로 교차 배치되었습니다.

이 설정은 엄격히 통제된 실험실 환경이 아니라 실제 학습 상황을 반영하도록 설계되었습니다. 참여는 시험 성적과 연계되지 않았으며, 모든 학생이 명시된 40분 세션 동안 동일한 정도로 Study Mode를 사용한 것도 아닙니다. 이를 통해 의도‑대‑처리(ITT) 효과—현실적인 도입 조건 하에서 도구에 접근할 수 있게 된 영향—를 측정·보고할 수 있었으며, 실제 사용량이 다양할 수 있음을 인정했습니다.

주요 결과

성적은 각 시험별로 별도 측정되었습니다. 개선 정도는 과목마다 일관되지 않았으며, Study Mode 활용도는 참가자마다 차이가 있었습니다.

신경과학(주요 ITT) – Study Mode를 사용한 경우 대조군에 비해 방향성으로 긍정적인 차이를 보였지만, 전통적인 온라인 리소스를 사용한 학생들과 통계적으로 구별되지 않았습니다. 온보딩 및 기술적 문제로 인해 Study Mode를 사용한 학생들의 공부 시간이 영향을 받았습니다.
미시경제학(주요 ITT) – Study Mode에 접근한 참가자들이 대조군에 비해 시험 성적에서 의미 있는 향상을 보였습니다.

전체 통계 결과는 향후 피어‑리뷰 논문에서 공유될 예정입니다.

Study Mode에 접근할 수 있었던 학생들과 AI를 전혀 사용하지 않은 대조군 간 성과 – 약 15 % 정도 높은 점수.

Study Mode(변형 A & B) vs. Control(무 AI 그룹): 조정된 평균 시험 점수

각 Study Mode 변형을 대조군과 별도로 비교해도 효과는 일관되었습니다.

이와 같은 현실적인 변동성은 학습 성과를 측정하는 기존 접근 방식의 근본적인 한계를 부각시킵니다.

대부분의 기존 평가 방법은 짧은 기간 동안 고정된 개입을 평가하고, 시험 점수나 최종 에세이와 같은 결과를 주요 신호로 사용합니다. 이러한 방법은 AI가 실제 학습에 미치는 핵심 메커니즘—학습자의 전략, 선호도, 공부 습관과 함께 진화하는 지속적이고 개인화된 상호작용—을 포착하도록 설계되지 않았으며, 또한 이를 충분히 반영하지 못합니다.

Source: …

한 능력(예: 단기 기억)의 향상이 다른 능력(예: 지속성, 자율적 동기 부여, 혹은 창의적 문제 해결)과의 상충을 동반할 수 있는지를 평가한다. 그 결과, AI가 학습을 실질적으로 향상시키는지를 궁극적으로 결정하는 장기적인 인지 효과를 놓치게 된다.

학습 환경은 국가, 교육 과정, 기관 목표에 따라 크게 다르기 때문에, 일회성 연구의 결과가 시스템 전반에 일반화되기 어렵다. 따라서 측정 접근 방식은 다양한 교육 시스템이 다음을 할 수 있을 만큼 유연해야 한다:

자신의 맥락에서 성공이 어떤 모습인지 정의한다
자체 기준에 따라 AI를 평가한다
그에 따라 반복한다

더 나은 측정 시스템 구축

OpenAI의 Study Mode 연구에서 얻은 교훈을 바탕으로, 우리는 구조화된 측정 시스템을 구축하고 있습니다. 이 시스템은 대규모 학습자에게 AI가 미치는 영향을 평가하고, 그 결과를 토대로 모델을 개선하는 메커니즘을 제공하기 위해 설계되었습니다. 모델의 행동, 학습자의 반응, 그리고 시간이 지남에 따라 나타나는 측정 가능한 인지적 결과라는 세 가지 신호에 기반합니다. 시스템은 다음을 포함합니다:

구성 요소	설명
모델 행동을 다듬기 위한 시스템 지시문	자연어를 사용해 모델의 기본 행동을 특정 교육학적 접근법에 맞게 변경합니다.
학습 상호작용 분류기	실제 비식별화된 학습자‑모델 상호작용에서 “학습 순간”을 자동으로 감지하고, 참여도와 오류 수정 등 중요한 특성을 라벨링합니다.
학습 품질 평가자	학습자가 목표를 달성했는지와 상호작용이 강력한 교육학 원칙(실패 모드 식별 포함)을 얼마나 잘 따랐는지를 평가하고 점수를 매깁니다.
종단 학습 평가자	동일 학습자의 시간 경과에 따른 모델 상호작용 변화를 추적합니다(개인 및 코호트 수준에서 참여도, 지속성, 메타인지 전략 등).
표준화된 인지·메타인지 측정 도구	ChatGPT 접근 전/중/후에 제공되는 검증된 제3자 도구를 사용해 비판적 사고, 창의성, 기억력 등 기본 역량의 기준선과 변화를 측정합니다.

이 요소들을 결합한 시스템을 Learning Outcomes Measurement Suite(학습 성과 측정 스위트)라고 부릅니다.

스위트가 제공하는 결과

학습 순간에 대한 구조화된 뷰
코호트별 시간에 따른 성과 변화를 보여주는 대시보드
교육 및 튜터링 루브릭에 대한 모델 성능 지표
표준화된 평가와 짧은 학습자 설문에 맞춘 성과 측정

가능한 경우, 시험 점수, 교실 관찰, 출석률 등 파트너가 제공하는 실제 데이터(ground truth)를 통합할 수 있습니다. 모든 데이터는 비식별화됩니다.

추적되는 심층 인지 영향

자율적 동기 – 학습자가 모델에 의해 지시받기보다 스스로 학습을 설계하는 정도
생산적 참여 – 교육적 상호작용의 빈도, 다양성, 품질
과제 지속성 – 학습자가 인지적 도전을 견디며 계속 진행하는 정도
메타인지 – 학습자가 학습 계획, 반성, 모니터링을 수행하는 빈도와 품질
회상 – 학습자가 이전 상호작용의 내용을 얼마나 정확히 기억하는지

이는 단순히 시험 점수 상승과 같은 좁은 학습 성과 정의를 넘어, 학습을 뒷받침하는 전체적인 역량으로 나아가려는 우리의 전반적인 노력입니다. 또한 만능 해결책은 없으며, 시스템과 교육자는 교육학 최선 실천에 맞춰 트레이드오프를 안내할 수 있도록 권한을 부여받아야 함을 인식하고 있습니다.

앞으로의 방향

우리는 학습 성과 측정 스위트를 대규모 연구를 통해 검증하고 있으며, 이를 널리 제공하기 전에 검증 작업을 진행하고 있습니다. 이 작업은 타르투 대학교와 스탠포드의 SCALE 이니셔티브가 에스토니아와 같은 국가 규모 파트너와 함께 진행하고 있으며, 해당 스위트는 16‑18세 학생 약 20,000명을 대상으로 몇 개월에 걸쳐 연구되고 있습니다. 학생들의 사용은 현지 지도자들과 긴밀히 협력하여 안전을 보장하고 현지 교육과정과의 정렬을 맞추는 방식으로 이루어질 것입니다.

“에스토니아는 교육을 정적인 것이 아니라 지속적으로 개선해 나가는 시스템으로 접근해 왔습니다. AI가 그 그림의 일부가 되면서, 큰 질문은 AI가 학습에 미치는 장기적인 영향을 어떻게 측정하느냐입니다. 이것이 바로 우리가 OpenAI와 협력하여 알아내고자 하는 부분입니다. 학생들은 개발 과정에 참여하고 싶어하며, 많은 이들이 AI를 활용해 학습을 지원하는 방법을 배우고 싶어합니다. 이는 진정한 전환점처럼 느껴지며, 우리는 다른 교육 시스템이 재사용하고 확장할 수 있는 방법들을 제공하게 되어 기쁩니다.”
— Jaan Aru, University of Tartu

학습 연구소

OpenAI는 학습과 노동이 교차하는 영역에서 연구를 지원하고 있습니다—AI가 학생들의 학업 경로, 진로 선택, 그리고 기관이 책임 있는 도입을 지원할 수 있는 방식을 어떻게 형성하는지 조사합니다. 이 연구는 다음 기관에서 진행되고 있습니다:

Bocconi University
Innova Schools
Tuck School of Business at Dartmouth
San Diego State University
Stony Brook University
…및 기타

AI와 함께 학생들이 최적의 학습 방법을 찾는 장기 연구를 진행하면서, 우리는 결과를 공유하고 더 넓은 교육 생태계와 협력하여 AI가 전 세계 학습자에게 혜택을 줄 수 있도록 할 예정입니다.

이 작업에 대한 업데이트를 받고 싶은 분은 **여기**에 등록하실 수 있습니다.

AI와 학습 성과에 대한 이해

소개

주요 요점

기원 및 초기 연구

연구 설계

주요 결과

Study Mode(변형 A & B) vs. Control(무 AI 그룹): 조정된 평균 시험 점수

더 나은 측정 시스템 구축

스위트가 제공하는 결과

추적되는 심층 인지 영향

앞으로의 방향

학습 연구소

관련 글

Stripe는 그들의 llms.txt와 함께 놀라운 작업을 해왔으며, 이 가이드는 이를 잘 다룹니다. 이것을 여러분의 llms.txt 파일에 추가하는 것이 좋을 수도 있습니다.

전쟁용 AI 모델은 실제로 어떻게 생겼는가

[Paper] SimpliHuMoN: 인간 동작 예측을 간소화

[Paper] SELDON: Deep ODE Networks에 의해 학습된 초신성 폭발