이번 주에 두 번, 나는 부끄러울 정도로 나쁜 data를 마주했다
Source: Hacker News
영국 정부의 연료 찾기 데이터
영국 정부는 영국 전역의 주유소 위치와 가격을 담은 CSV 파일을 다운로드할 수 있게 제공하고 있습니다 — 특히 현재 중동 지역 분쟁 상황에서 매우 유용한 데이터베이스가 될 수 있습니다. 한 고객이 이를 제 데이터 정제 및 시각화 소프트웨어, Easy Data Transform의 연습용 데이터셋으로 제안했습니다. 빠르게 살펴보니 몇 분 안에 눈에 띄는 오류들을 발견했습니다.
위도와 경도를 간단히 플롯해 보면 명백한 이상치가 보입니다:
추가 조사를 하면 일부 영국 주유소가 인도양과 남대서양에 위치한 것으로 나타났습니다. 최소 한 경우는 위도와 경도가 서로 뒤바뀐 것으로 보입니다:
연료 가격 열을 빠르게 살펴보아도 큰 문제가 드러납니다:
가장 비싼 연료와 가장 저렴한 연료(리터당)의 비율이 1 538 : 1로, 명백히 잘못된 수치입니다. 로그 스케일 Y축을 사용한 히스토그램으로 나타내면:
원인은 주유소가 자체 데이터를 제출하고 인간 오류가 개입했기 때문이라고 추정됩니다. 그러나 정부는 가장 기본적인 검증조차 하지 않은 채 데이터를 공개하고 있어 받아들일 수 없습니다.
저는 2026년 3월 22일에 이 문제를 보고했습니다. 팀은 2026년 3월 24일에 제 이메일을 확인했으며 (“Thank you for sharing this, we have passed this on to the technical team to have a look at.”)이라고 답했습니다. 2026년 3월 29일에 공개된 CSV 파일에는 여전히 오류가 포함되어 있습니다.
RAC 전기차 보고서
두 번째 사례는 영국 자동차 단체인 RAC가 발표한 전기차 보고서입니다. 기사 첫 번째 그래프는 영국 도로에 있는 배터리 전기차(BEV) 수가 2024년 약 140만 대에서 2025년 ≈ 1 700대로 급격히 감소했다고 보여줍니다:
BEV 수가 1년 만에 세 자릿수 정도 급감했을까요? 수천 대와 수백만 대가 뒤섞인 것으로 보이며, 이 명백한 오류가 그대로 보고서에 실렸습니다. 수학적 식견을 가진 검토자가 이를 잡지 못한 듯합니다.
데이터 품질이 중요한 이유
형편없는 데이터는 기관에 대한 신뢰를 무너뜨리고 잘못된 의사결정을 초래할 수 있습니다. 저는 대형 언어 모델이 검증되지 않은 데이터를 생성하고, 그 데이터가 다시 모델 학습에 사용되는 “데이터 쓰레기 종말” 상황이 올까 두렵습니다.
저자는 작업을 교정받아야 하고, 프로그래머는 코드를 테스트해야 하며, 데이터 전문가들은 기본적인 검증을 수행해야 합니다. 정확하고 신뢰할 수 있는 데이터를 제공하는 데 자부심을 가져야 합니다.




