[Paper] Android 앱에서 숨겨진 지리적 격차 탐색
Source: arXiv - 2511.21151v1
Overview
이 논문은 Android 앱에 숨겨진 지리적 편향 층을 밝혀냅니다: 동일한 앱이라도 다운로드 위치에 따라 동작이 달라질 수 있습니다. 여러 국가에서 Google Play을 체계적으로 크롤링함으로써 저자들은 “GeoTwins”—시각적으로는 동일하지만 권한, 서드파티 SDK, 개인정보 고지 사항이 다른 앱—를 식별하고, Android App Bundle의 핵심 base.apk조차도 지역에 따라 달라질 수 있음을 보여줍니다. 이러한 발견은 앱 코드가 전 세계적으로 동일하다는 가정을 뒤흔들며, 개발자, 연구자, 규제기관에게 보안, 공정성, 재현성 문제를 제기합니다.
Key Contributions
- “GeoTwins”의 정의 및 대규모 탐지. 81,963개의 앱 쌍이 브랜드와 기능은 동일하지만 국가별로 다른 패키지 이름으로 배포됩니다.
base.apk파일이 지역에 따라 다르다는 실증적 증거—Android App Bundle 모델에서 기본 모듈이 전 세계적으로 동일하다는 믿음에 반합니다.- 권한, 라이브러리, 개인정보 정책 차이의 정량적 분석을 통해 체계적인 지역 격차를 강조합니다.
- 실제 영향 시연: 동일한 앱이 한 국가의 악성코드 데이터셋에서는 정상으로, 다른 국가에서는 악성으로 분류될 수 있어 보안 연구의 재현성을 저해합니다.
- 정제된 데이터셋 공개(GeoTwins 목록, 지역별 APK 해시, 메타데이터)로 후속 연구를 지원합니다.
Methodology
- 분산 수집 파이프라인 – VPN 및 클라우드 제공자를 이용해 12개 이상의 지리적 위치에 가상 디바이스를 배치하고, 현지 사용자가 Google Play을 조회하는 방식으로 데이터를 수집했습니다.
- 앱 매칭 및 트윈 탐지 – 아이콘, 이름, 설명 등 시각적 유사성으로 앱을 그룹화한 뒤, 패키지 이름이 다르고 지역별 다운로드 URL이 다른 경우를 필터링했습니다.
- 정적 분석 – 각 APK에서 권한, 포함된 서드파티 라이브러리, 개인정보 정책 URL을 추출했습니다. App Bundle의 경우
base.apk를 풀어 해시를 지역별로 계산했습니다. - 지역 간 비교 – 권한 집합 및 라이브러리 목록에 대해 Jaccard 유사도 점수를 계산하고, 해시 충돌을 측정해 기본 모듈의 차이를 탐지했습니다.
- 검증 – 무작위로 트윈을 샘플링해 수동 검토를 수행, 기능적 동등성을 확인하고 (예: 현지화된 언어 팩) 오탐을 배제했습니다.
Results & Findings
- GeoTwins는 흔합니다: 수집한 120만 개 앱 중 약 7 %가 GeoTwin 쌍을 이루며, 앱당 중간값은 3개의 지역 변형입니다.
- 권한 변동: 트윈의 42 %가 상대방에 없는 최소 하나의 권한을 추가 요청했으며, 특히 특정 시장에서 위치나 SMS 권한을 추가하는 경우가 많았습니다.
- 라이브러리 차이: 지역 전용 SDK(예: 광고 네트워크, 분석 도구)가 35 %의 트윈에 나타났으며, 일부 시장에서는 더 공격적인 추적 라이브러리가 포함되었습니다.
- Base.apk 차이: App Bundle의 18 %가 지역마다 다른
base.apk해시를 보여, 숨겨진 코드 경로나 기능 토글이 존재함을 시사합니다. - 보안 분류 전환: 표준 악성코드 스캐너 벤치마크에서 트윈의 12 %가 지역별 변형에 따라 “깨끗함”에서 “의심스러움”으로 분류가 바뀌었습니다.
Practical Implications
- 개발자: 의도치 않은 권한 증가나 서드파티 SDK 포함 여부를 확인하기 위해 지역별 빌드를 감사해야 합니다. CI 파이프라인에 다지역 빌드와 자동 diff 검사를 도입하세요.
- 보안 연구자: 편향된 데이터셋을 피하려면 여러 지역에서 앱을 수집해야 하며, 재현성 연구에서는 수집 지역을 명시해야 합니다.
- 앱 스토어 운영자: 지역별 변경 로그와 권한 차이를 사용자에게 표시해 투명성과 동의를 향상시켜야 합니다.
- 기업 모바일 관리(EMM) 및 MDM 도구: 정책 적용이나 취약점 스캔 시 각 지역 변형을 별도 자산으로 취급해야 합니다.
- 정책 입안자: 이 연구 결과는 지역별 데이터 수집 관행을 명확히 고지하도록 요구하는 규제의 근거를 제공합니다.
Limitations & Future Work
- 지리적 범위: 본 연구는 주로 북미, 유럽, 일부 아시아 시장에 국한된 국가들을 대상으로 했으며, 추가 지역에서는 더 큰 격차가 발견될 수 있습니다.
- 동적 행동: 정적 분석만으로는 특정 네트워크나 로케일 조건에서만 활성화되는 런타임 기능 토글을 포착하지 못합니다.
- 인과 관계: 차이가 의도적인 시장 맞춤, 법적 준수, 혹은 개발자의 실수 중 어느 것에 기인하는지는 밝히지 못했습니다.
향후 연구에서는 파이프라인을 더 많은 로케일로 확장하고, 동적 계측을 도입해 런타임 차이를 관찰하며, 지역 맞춤화 뒤에 숨은 비즈니스 동기를 탐구할 수 있습니다.
Authors
- M. Alecci
- P. Jiménez
- J. Samhi
- T. Bissyandé
- J. Klein
Paper Information
- arXiv ID: 2511.21151v1
- Categories: cs.SE
- Published: November 26, 2025
- PDF: Download PDF