이번 주에 두 번, 나는 창피할 정도로 나쁜 데이터를 마주했다
Source: Hacker News
이번 주에 두 차례, 부끄러울 정도로 형편없는 데이터를 발견했습니다.
영국 정부의 연료 찾기 데이터
영국 정부는 영국 전역의 주유소 위치와 가격을 담은 CSV 파일을 다운로드할 수 있게 제공하고 있습니다 — 특히 현재 중동 분쟁 상황에서 매우 유용한 데이터베이스가 될 수 있습니다. 한 고객이 이를 제 데이터 정제 및 시각화 소프트웨어, Easy Data Transform의 연습용 데이터셋으로 제안했습니다. 빠르게 살펴보니 몇 분 안에 명백한 오류가 드러났습니다.
위도와 경도를 간단히 플롯해 보면 명확한 이상치가 보입니다:
추가 조사를 하면 일부 영국 주유소가 인도양이나 남대서양에 위치한 것으로 나타났습니다. 최소 한 경우는 위도와 경도가 뒤바뀐 것으로 보입니다:
연료 가격 열을 간단히 살펴보아도 큰 문제가 있습니다:
가장 비싼 연료와 가장 저렴한 연료(리터당)의 비율이 1 538 : 1로, 명백히 잘못된 수치입니다. 로그 Y축을 사용한 히스토그램으로 나타내면 다음과 같습니다:
원인은 주유소가 자체 데이터를 제출하면서 인간 오류가 발생했기 때문이라고 추정됩니다. 그러나 정부는 가장 기본적인 검증조차 하지 않은 채 데이터를 공개하고 있어 이는 용납될 수 없습니다.
저는 2026년 3월 22일에 문제를 보고했습니다. 팀은 2026년 3월 24일에 제 이메일을 확인하며 “공유해 주셔서 감사합니다. 기술팀에 전달해 검토하도록 하겠습니다.”라고 답변했습니다. 2026년 3월 29일에 공개된 CSV 파일에는 여전히 오류가 포함되어 있습니다.
RAC 전기차 보고서
두 번째 사례는 영국 자동차 단체인 RAC가 발표한 전기차 보고서입니다. 기사 첫 번째 그래프는 영국 도로에 있는 배터리 전기차(BEV) 수가 2024년 약 140만 대에서 2025년 약 1,700대로 급감했다고 보여줍니다:
BEV 수가 1년 만에 세 자릿수 정도 급감했을까요? 수천 대와 수백만 대가 뒤섞인 것으로 보이며, 이 명백한 오류가 보고서에 그대로 실렸습니다. 수학적 소양을 갖춘 검토자도 이를 잡지 못한 듯합니다.
데이터 품질이 중요한 이유
형편없는 데이터는 기관에 대한 신뢰를 무너뜨리고 잘못된 의사결정을 초래할 수 있습니다. 저는 사람들이 제대로 검증하지 않은 데이터를 대형 언어 모델이 생성하고, 그 데이터가 다시 모델 학습에 사용되는 “데이터 쓰레기 종말” 상황으로 나아가고 있다는 우려를 가지고 있습니다.
작성자는 작업을 교정받아야 하고, 프로그래머는 코드를 테스트해야 하며, 데이터 전문가들은 기본적인 검증을 수행해야 합니다. 정확하고 신뢰할 수 있는 데이터를 제공하는 데 자부심을 가져야 합니다.




