Synthetic Data는 현실을 대체하는 것이 아니다. 그것은 현실에 질문을 제기하는 것이다.
Source: Dev.to
실제 데이터의 숨겨진 문제
우리는 실제 데이터를 중립적인 것처럼 이야기하곤 합니다. 그렇지 않습니다.
- 채용 데이터는 수십 년간의 교육, 고용, 기회에 대한 불평등한 접근을 반영합니다.
- 헬스케어 데이터는 누가 진단받았고, 누가 믿어졌으며, 누가 무시되었는지를 반영합니다.
- 행동 데이터셋은 문화적 규범과 경제적 압력을 반영합니다.
AI 시스템이 순수히 과거 데이터만으로 학습될 때, 공정성을 배우는 것이 아니라; 불평등에 의해 형성된 많은 패턴을 학습합니다. 이것은 철학적 논쟁이 아니라 통계적 논쟁입니다.
합성 데이터가 실제로 무엇인지
Synthetic data는 실제 데이터 세트의 구조와 통계적 특성을 모방하지만 실제 개인을 나타내지 않는 인공적으로 생성된 데이터입니다.
- 이것은 인간이 읽도록 만들어진 것이 아닙니다.
- 시스템이 학습하거나 테스트할 수 있도록 만들어졌습니다.
예시
- 합성 이력서는 구직을 위해 사용되는 것이 아닙니다.
- 합성 환자 기록은 실제 사람을 묘사하기 위한 것이 아닙니다.
- 합성 필기 샘플은 인간의 글쓰기를 대체하기 위한 것이 아닙니다.
이들은 해를 끼치지 않고 실험을 가능하게 하기 위해 존재합니다.
합성 데이터: 통제된 렌즈
합성 데이터의 가장 강력한 특성 중 하나는 통제입니다. 현실 세계에서는 다음과 같은 행동을 윤리적으로 할 수 없습니다:
- 구직자를 선택한다.
- 이름, 나이, 혹은 장애를 언급하는 한 줄만을 바꾼다.
- 그런 다음 지원 과정을 다시 실행한다.
합성 데이터를 사용하면 가능합니다.
공정성 테스트를 위한 합성 이력서 생성에 관한 연구에서는 하나의 변수만을 제외하고 모든 변수를 동일하게 유지한 인공 지원자 프로필을 만들 수 있음을 보여줍니다. 이를 통해 연구자와 실무자는 실제 후보자를 참여시키거나 프라이버시 의무를 위반하지 않고도 자동화된 채용 시스템이 특정 인구통계학적 변화에 어떻게 반응하는지 관찰할 수 있습니다 (Saldivar, Gatzioura, Castillo, 2025).
이러한 통제된 조건 하에서 결과가 변할 때, 편향은 비난이 아니라 관찰 가능한 행동으로 드러납니다.
의료 및 희귀질환 연구에서 얻은 교훈
일부 가장 성숙한 합성 데이터 연구는 의료 분야에서 나옵니다. 희귀질환 연구에서는 데이터가 부족하고, 민감하며, 규제가 엄격합니다; 실제 환자 기록을 공유하는 것은 종종 불가능합니다.
- 프라이버시를 보호하는 합성 데이터 생성은 생성 모델이 현실적인 환자 프로필을 만들어 분석, 모델 훈련 및 협업을 개인 정보를 노출하지 않고 수행할 수 있음을 보여줍니다 (Mendes, Barbar, Refaie, 2025).
이러한 연구는 또 다른 중요한 점을 강조합니다: 합성 데이터는 생성된 원본 데이터의 품질을 반영합니다. 원본 데이터셋이 편향되었거나 불완전하면, 합성 데이터도 그 약점을 물려받게 됩니다. 이 교훈은 채용 시스템에도 직접 적용됩니다—합성 데이터가 자동으로 공정한 것은 아니며, 의도적으로 설계되어야 합니다.
왜 표현이 양보다 더 중요한가
Handwriting‑recognition 연구는 또 다른 통찰을 제공합니다. 일부 언어와 필기 스타일은 공개 데이터셋에 충분히 반영되지 않아, 모델이 특정 인구 집단에 대해서는 잘 작동하고 다른 집단에 대해서는 성능이 저조합니다.
실제 데이터가 제한적인 경우(Pham Thach Thanh Truc et al., 2025), 모델이 적절히 일반화할 수 있도록 충분한 변화를 포착하기 위해 대규모 합성 데이터셋이 종종 필요합니다.
Takeaway: 데이터에 특정 그룹이 누락되어 있으면 시스템은 그 그룹을 다루는 데 어려움을 겪게 됩니다. 이는 이력서(CVs), 의료 기록, 그리고 인간 다양성과 상호작용하는 모든 시스템에 적용됩니다.
로봇공학이 합성 세계에 대해 가르쳐 주는 것
로봇공학은 유용한 경고를 제공합니다. 로봇 학습에서는 실제 데이터를 수집하는 비용과 시간이 많이 들기 때문에 시뮬레이션이 널리 사용됩니다. 그러나 로봇 bin‑packing에 대한 연구에 따르면, 이상적인 합성 환경에서만 훈련된 시스템은 실제 조건에 배치될 때 종종 실패합니다 (Wang et al., 2025).
왜일까요? 현실은 복잡하기 때문입니다:
- 물체가 예측할 수 없게 움직인다.
- 조명이 변한다.
- 제약 조건이 바뀐다.
이와 같은 원리는 공정성 테스트에 사용되는 합성 데이터에도 적용됩니다. 합성 CV가 너무 깔끔하고, 선형적이며, 이상적이면 공정성 평가가 오해를 불러일으킬 수 있습니다. 실제 경력은 드물게 정돈되어 있지—사람들은 경로를 바꾸고, 휴식을 취하고, 국가를 이동하며, 타인을 돌봅니다. 합성 데이터는 이러한 복잡성을 반영해야 의미 있는 편향을 드러낼 수 있습니다.
합성 데이터는 자동으로 편향을 없애지 않는다
합성 데이터 스스로는 편향을 해결하지 못합니다. 생성 모델은 패턴을 학습할 뿐이며, 윤리나 사회적 맥락을 이해하지 못합니다. 과거 데이터에 불평등이 내포되어 있다면, 순진한 합성 데이터 생성기는 이를 그대로 재현하게 됩니다.
최근 연구에서는 특히 의료·고용과 같은 민감한 분야에서 합성 데이터셋을 생성할 때 제약, 검증, 그리고 도메인 지식의 필요성을 강조하고 있습니다 (Mendes et al., 2025).
합성 데이터는 하나의 도구일 뿐이며, 공정성은 그것을 어떻게 활용하느냐에 달려 있습니다.
왜 합성 데이터는 정직함을 강요하는가
합성 데이터는 변명을 없앤다. 시스템을 통제된 조건에서 테스트할 수 있게 되면, 편향이 잡음이나 복잡성 뒤에 숨을 수 없게 된다.
- 채용 모델이 단 하나의 변수만 바뀌었을 때도 불공정하게 작동한다면, 그 문제는 구조적이다.
- 합성 데이터는 비난하지 않는다; 드러낸다.
바로 이것이 합성 데이터가 중요한 이유이다.
앞을 내다보며
합성 데이터는 종종 인공적이라고 설명되지만, 그 영향은 실제입니다. 이는 우리가 다음과 같이 행동하는 방식을 형성합니다:
-
AI 시스템을 테스트한다.
-
프라이버시를 보호한다.
-
편향을 감지한다.
-
보다 공정한 대안을 상상한다.
-
부주의하게 사용하면, 역사적 불평등을 강화할 수 있다.
-
신중하게 사용하면, 이를 도전하는 데 도움이 된다.
-
합성 데이터는 현실을 대체하는 것이 아니다.
-
그것은 우리가 그로부터 구축하는 시스템을 질문하는 것이다.
References
- Saldivar, J., Gatzioura, A., & Castillo, C. (2025). Synthetic CVs to Build and Test Fairness‑Aware Hiring Tools. ACM Transactions on Intelligent Systems and Technology.
- Mendes, M., Barbar, F., & Refaie, A. (2025). Synthetic Data Generation: A Privacy‑Preserving Approach to Accelerate Rare Disease Research. Frontiers in Digital Health.
- Pham Thach Thanh Truc et al. (2025). HTR‑ConvText: Leveraging Convolution and Textual Information for Handwritten Text Recognition. arXiv preprint.
- Wang, Z. et al. (2025). RoboBPP: Benchmarking Robotic Online Bin Packing with Physics‑Based Simulation. arXiv preprint.
- MIT Technology Review – What synthetic data is and why it matters for AI
- Nature News and Comment – How artificial data could help address bias in AI
- OECD AI Policy Observatory – Fairness, transparency, and accountability in AI