이번 주에 두 번, 나는 부끄러울 정도로 나쁜 data를 마주했다

발행: (2026년 3월 30일 오전 12:54 GMT+9)
5 분 소요
원문: Hacker News

Source: Hacker News

영국 정부의 연료 찾기 데이터

영국 정부는 영국 전역의 주유소 위치와 가격을 담은 CSV 파일을 다운로드할 수 있게 제공하고 있습니다 — 특히 현재 중동 지역 분쟁 상황에서 매우 유용한 데이터베이스가 될 수 있습니다. 한 고객이 이를 제 데이터 정제 및 시각화 소프트웨어, Easy Data Transform의 연습용 데이터셋으로 제안했습니다. 빠르게 살펴보니 몇 분 안에 눈에 띄는 오류들을 발견했습니다.

위도와 경도를 간단히 플롯해 보면 명백한 이상치가 보입니다:

Fuel station locations plot

추가 조사를 하면 일부 영국 주유소가 인도양과 남대서양에 위치한 것으로 나타났습니다. 최소 한 경우는 위도와 경도가 서로 뒤바뀐 것으로 보입니다:

Swapped coordinates example

연료 가격 열을 빠르게 살펴보아도 큰 문제가 드러납니다:

Fuel price anomalies

가장 비싼 연료와 가장 저렴한 연료(리터당)의 비율이 1 538 : 1로, 명백히 잘못된 수치입니다. 로그 스케일 Y축을 사용한 히스토그램으로 나타내면:

Fuel price histogram (log scale)

원인은 주유소가 자체 데이터를 제출하고 인간 오류가 개입했기 때문이라고 추정됩니다. 그러나 정부는 가장 기본적인 검증조차 하지 않은 채 데이터를 공개하고 있어 받아들일 수 없습니다.

저는 2026년 3월 22일에 이 문제를 보고했습니다. 팀은 2026년 3월 24일에 제 이메일을 확인했으며 (“Thank you for sharing this, we have passed this on to the technical team to have a look at.”)이라고 답했습니다. 2026년 3월 29일에 공개된 CSV 파일에는 여전히 오류가 포함되어 있습니다.

RAC 전기차 보고서

두 번째 사례는 영국 자동차 단체인 RAC가 발표한 전기차 보고서입니다. 기사 첫 번째 그래프는 영국 도로에 있는 배터리 전기차(BEV) 수가 2024년 약 140만 대에서 2025년 ≈ 1 700대로 급격히 감소했다고 보여줍니다:

RAC BEV graph

BEV 수가 1년 만에 세 자릿수 정도 급감했을까요? 수천 대와 수백만 대가 뒤섞인 것으로 보이며, 이 명백한 오류가 그대로 보고서에 실렸습니다. 수학적 식견을 가진 검토자가 이를 잡지 못한 듯합니다.

데이터 품질이 중요한 이유

형편없는 데이터는 기관에 대한 신뢰를 무너뜨리고 잘못된 의사결정을 초래할 수 있습니다. 저는 대형 언어 모델이 검증되지 않은 데이터를 생성하고, 그 데이터가 다시 모델 학습에 사용되는 “데이터 쓰레기 종말” 상황이 올까 두렵습니다.

저자는 작업을 교정받아야 하고, 프로그래머는 코드를 테스트해야 하며, 데이터 전문가들은 기본적인 검증을 수행해야 합니다. 정확하고 신뢰할 수 있는 데이터를 제공하는 데 자부심을 가져야 합니다.

0 조회
Back to Blog

관련 글

더 보기 »

Seal Report 시작하기: 종속 필터 적용

소개 이 보고서는 시리즈의 네 번째 보고서입니다. 지금까지 우리는 서로 독립적인 다양한 유형의 제한을 사용했습니다. Real‑world filteri...

PowerBI를 PostgreSQL 데이터베이스에 연결

개요 Power BI는 Microsoft에서 제공하는 비즈니스 인텔리전스(BI) 도구로, 사용자가 데이터를 시각화하고, 인터랙티브 대시보드를 구축하며, 데이터 기반 의사결정을 내릴 수 있게 합니다.