거실의 스마트 TV가 AI 스크래핑 경제의 한 노드다

발행: (2026년 6월 6일 PM 06:17 GMT+9)
11 분 소요

Source: Hacker News

Include Security에서 우리는 AI와 하루하루를 같이 일합니다(해킹, 사용, 학습 등).

우리는 최근에 AI 역량을 향상시키기 위해 구축되는 데이터센터에 대한 커뮤니티 차원의 반대 움직임을 모두 알고 있습니다. 하지만 여러분이 모를 수도 있는 사실은, 여러분 집 안에 있는 기기들을 이용해 AI를 학습시키려는 분산된 시도들이 존재한다는 점입니다.

이번 포스트에서는 Bright Data가 자사의 주거용 프록시 네트워크를 활용해 인터넷에서 학습 데이터를 스크래핑하는 현대 AI 모델들을 어떻게 지원하는지 살펴보겠습니다.

Bright Data는 4억 개가 넘는 가정용 IP 주소를 보유한 세계 최대 규모의 주거용 프록시 네트워크에 대한 접근 권한을 판매하는 데이터 수집 회사입니다. 이 네트워크의 공급원은 SDK(소프트웨어 개발 키트)이며, 이는 소비자 앱에 삽입된 소프트웨어 조각으로, 사용자의 동의를 얻어 그들의 스마트폰이나 스마트 TV를 탈출 노드 중 하나로 전환합니다.

우리는 일반 사용자 여러분이 모바일 폰이나 스마트 TV와 같은 시스템에서 이 회사의 SDK가 어떤 일을 하는지 알아야 할 사항을 문서화합니다. SDK가 어떻게 동작하는지, 어떤 플랫폼에 배포됐는지, 그리고 인터넷에 연결된 TV가 AI 모델이 인터넷에서 스크랩한 데이터를 학습하려 할 때 궁극적인 프록시가 되는 이유를 탐구합니다.

왜 지금 중요한가

AI 기업들은 웹 스크래핑된 콘텐츠에 의존합니다: 사전 학습, 검색, 에이전트 기반, 검색 등. 하지만 현대 웹은 데이터센터에서 직접 스크래핑하기가 어렵습니다. Cloudflare, DataDome, HUMAN 등은 알려진 클라우드 IP에서 오는 요청을 제한하거나 차단합니다.

우회 방법은 주거용 프록시입니다. Comcast나 T‑Mobile 구독자의 연결을 통해 라우팅된 스크래핑 작업은 대상 사이트에 유료 가정 고객의 IP에서 오는 것처럼 보입니다. Krebs는 2025년 10월에 *“Aisuru와 기타 소스에서 나온 프록시 과잉 공급이 다양한 AI 프로젝트와 연결된 대규모 데이터 수집을 촉진하고 있다.”*라고 보도했습니다. 2019년부터 이어진 학술 측정은 이러한 네트워크가 압도적으로 악용되고 있음을 보여줍니다. FBI는 올해 초 공식 권고를 발표했습니다.

대부분의 기존 보도는 불법 주거용 프록시 공급에 초점을 맞췄습니다: 봇넷(Aisuru, Kimwolf), 트로이 목마형 앱(HUMAN Security의 PROXYLIB 공개), 사전 감염된 IoT 하드웨어(Google/Mandiant의 IPIDEA 단속) 등. 이들이 악성 행위자입니다.

반면, 합법적인 공급 측면은 거의 주목받지 못했습니다. 현재 Bright Data는 자체 마케팅에 따르면 “150M+ IP”를 보유한 세계 최대 주거용 프록시 네트워크이며, 파트너 앱에 삽입된 동의 SDK를 통해 IP를 공급받습니다. 이 연구는 해당 SDK가 어떻게 동작하는지, 어떤 플랫폼에 배포됐는지, 그리고 연결된 TV가 왜 궁극적인 주거용 프록시가 되는지를 문서화합니다.

왜 연결된 TV(CTV)가 이상적인 프록시인가

연결된 TV, 즉 스마트 TV는 거의 완벽한 주거용 프록시입니다. 모바일 폰과 비교하면 다음과 같습니다.

요소모바일 폰스마트 TV / CTV
전원배터리 사용 → 하루 대부분항상 전원에 연결
네트워크Wi‑Fi + 셀룰러항상 Wi‑Fi, 고속
가동 시간간헐적대기 상태 24/7
대역폭 상한낮음(셀룰러 제한)사실상 무제한
사용자 주의적극적 사용대부분 방치
동의 UI화면에 텍스트리모컨 화살표 키로 탐색
기업/가족 감독높음(MDM, 모바일 EDR)거의 없음

TV는 배터리 1% 이하로 떨어지지 않으며, Wi‑Fi 네트워크 사이를 전환하거나 사용자가 잠들 때 잠기지 않습니다. 일부 파트너 퍼블리셔는 개인정보 보호정책에 Bright Data와의 관계를 명시합니다예: PlayWorks. 하지만 TV에서는 개인정보 보호정책을 통해 제어하기가 어렵습니다. 원격 조종기의 화살표 키로 긴 법적 문서를 스크롤하기는 힘들고, 앱 내 동의 대화창은 “유료 Bright Data 고객이 사용자의 가정 인터넷을 통해 스크래핑 트래픽을 라우팅하려 한다”는 사실을 충분히 전달하지 못합니다.

Petflix(Roku 앱)The Verge가 문서화함 사례를 살펴보면, 옵트인 화면에 다음과 같이 적혀 있습니다:

“Petflix를 무료로, 광고를 적게 보면서 이용하려면 Bright Data가 가끔 여러분의 디바이스와 IP 주소를 사용해 인터넷에서 공개 웹 데이터를 다운로드하도록 허용하는 것입니다. Bright Data는 여러분의 IP 주소를 승인된 비즈니스 용도에만 사용합니다. 여러분의 개인 정보는 IP 주소 외에는 접근하거나 수집되지 않습니다. 끝.”

Petflix 대화창은 “가끔”이라고 명시합니다. SDK의 공개 가능한 설정은 max_bw_monthly_wifi: 200,000,000,000 바이트(월 200 GB)로 기본값이 설정되어 있습니다.

Bright Data가 파트너로 명시한 기업들

Bright Data는 파트너 매니페스트 엔드포인트를 공개합니다. 이 엔드포인트는 인증이 필요 없으며 누구나 조회할 수 있습니다. 공개 소스에서 높은 신뢰도로 확인된 매니페스트 내 파트너 ID와 해당 기업은 다음과 같습니다.

파트너 ID (config)엔터티규모
playworks_digitalPlayWorks Digital Ltd400개 이상의 CTV 게임 타이틀; Comcast, Sky, Cox, LG, Samsung, Vizio, Roku 등으로 약 2억 5천만 가정 도달
cloudtvCloudTV125개 이상의 TV 브랜드와 15개 이상의 OEM에 통합
longvision_media_hong_kong_co_limitedLongvision Media HK (LongTV)홍콩·말레이시아에서 5백만 OTT 사용자 보유
viber_media_s_r_lViber Media S.à r.l. (Rakuten)월 2억 5천만~8억 2천만 명의 Viber 메신저 사용자
supercent_incSupercent (한국)2023년 다운로드 기준 한국 모바일 퍼블리셔 1위
moonfrog_labs_private_limitedMoonfrog Labs (Stillfront 자회사)Teen Patti Gold만 1천만 MAU; 9천만 달러에 인수
hola_networksHola NetworksBright Data의 모회사; Hola 자체 마케팅에 따르면 피크 시점에 수십~1억+ 사용자를 보유

그 외에도 desoline, free_time, ott_studio, global_microtrading, m_m_media, easystaff_lp 등은 매니페스트에 존재하지만 공개 자료만으로는 식별이 어렵습니다. bright_screensavers, bright_videos, brightdata는 Bright Data 자체 앱입니다.

파트너 리스트가 증명하는 바

  • Bright Data는 이 명단을 인증되지 않은 공개 엔드포인트로 제공한다.
  • 최소 세 개의 CTV‑전문 기업(PlayWorks, CloudTV, Longvision)이 사용자의 디바이스를 주거용 프록시 탈출 노드로 수익화하고 있다. 특히 PlayWorks는 자체 마케팅 자료에서 수백만 가구에 걸친 CTV 배포 규모를 보고한다.

Bright Data SDK가 사용자의 디바이스를 주거용 프록시 탈출 노드로 전환하는 방식

Bright Data SDK는 공개 문서화된 상업용 제품이며, 퍼블… (본문이 여기서 끊겼습니다)

0 조회
Back to Blog

관련 글

더 보기 »

OpenAI, SEC에 S‑1 초안 제출

We recently submitted a confidential S-1. We expect it to leak so we’re just announcing it. We have not decided on timing yet; it may be a while because there a...