쓰레기 데이터 게시를 멈추세요, 부끄럽습니다

발행: (2026년 3월 30일 AM 12:54 GMT+9)
5 분 소요

Source: Hacker News

영국 정부의 Fuel Finder 데이터셋에 있는 잘못된 데이터

이번 주에 두 차례나 눈에 띄게 엉망인 데이터를 발견했습니다.

첫 번째 사례는 영국 정부의 Fuel Finder 데이터입니다. 이는 영국 전역의 주유소 위치와 가격을 담은 CSV 파일로, 특히 현재 중동 분쟁 상황에서 매우 유용할 수 있습니다. 한 고객이 제 데이터 정제 및 시각화 소프트웨어, Easy Data Transform의 연습용 데이터셋으로 추천했습니다.

위도와 경도를 간단히 플롯해 보니 명백한 이상치가 눈에 띕니다:

위도/경도 이상치

조사해 보니 일부 영국 주유소가 인도양이나 남대서양에 위치해 있는 것으로 나타났습니다. 최소 한 경우는 위도와 경도가 뒤바뀐 것으로 보입니다:

좌표가 뒤바뀜

연료 가격 열을 살펴보아도 큰 문제가 드러납니다:

연료 가격 이상

가장 비싼 연료와 가장 저렴한 연료(리터당)의 비율이 1538 : 1로, 명백히 잘못된 수치입니다. 로그 Y축을 사용한 히스토그램으로 나타내면 다음과 같습니다:

로그 Y축 히스토그램

원인은 주유소가 자체 데이터를 제출하면서 인간 실수가 발생한 것으로 추정됩니다. 그러나 정부는 가장 기본적인 검증조차 하지 않은 채 데이터를 공개하고 있어 이는 용납될 수 없습니다.

저는 2026년 3월 22일에 문제를 보고했습니다. 2026년 3월 24일에 그들은 제 이메일을 확인하고 “감사합니다. 기술팀에 전달해 검토하도록 하겠습니다.”라고 답변했습니다. 그러나 2026년 3월 29일에 공개된 CSV 파일에는 여전히 쓰레기 데이터가 포함되어 있습니다.


RAC 전기차 보고서에 있는 잘못된 데이터

두 번째 사례는 영국 자동차 단체인 RAC가 발표한 전기차 보고서입니다. 기사 첫 번째 그래프는 다음과 같습니다:

RAC 전기차 그래프

2024년 영국 도로에 있던 배터리 전기차(BEV) 수가 약 140만 대에서 2025년에 약 0.0017만 대로 급감한 것으로 보이는데, 이는 어떻게 된 일일까요? 누군가 천 단위와 백만 단위를 혼동한 것으로 보입니다. 그런데도 이 명백한 오류가 그대로 보고서에 실렸으며, 그래프를 검증한 수학적으로 능숙한 사람은 없었던 것으로 추정됩니다.


왜 잘못된 데이터가 중요한가

형편없는 데이터는 기관에 대한 신뢰를 무너뜨리고 잘못된 의사결정을 초래할 수 있습니다. 저는 우리가 LLM이 생성한 데이터를 사람들이 검증조차 하지 않는 미래로 나아가고 있다고 우려합니다. 그런 데이터가 다시 LLM을 학습시키는 데 사용되면, 원본 출처 없이 오류를 발견하기가 더욱 어려워지는 “쓰레기 종말” 상황이 발생할 것입니다.


더 나은 관행을 위한 촉구

  • 작성자는 작업을 교정해야 합니다.
  • 프로그래머는 코드를 테스트해야 합니다.
  • 데이터 전문가는 기본적인 검증을 수행해야 합니다.

우리의 작업에 자부심을 가지고, 공개하는 데이터가 신뢰할 수 있도록 합시다.

0 조회
Back to Blog

관련 글

더 보기 »