AI 스타트업, 에이이다트의 성장일기 🤖💡 3화 남의 데이터, 나의 알고리즘
Source: Platum
제3화. 남의 데이터, 나의 알고리즘
(주제: AI 학습 데이터 저작권)
시리즈 A 투자를 성공적으로 유치한 지 6개월이 지났다. 에이이다트의 재무회계 AI SaaS는 스타트업과 IT 업계에서 빠르게 입소문을 타며 가파르게 성장하고 있었다. 회사의 재무회계 관리 부담을 줄이고, 때로는 사람과 비슷한 통찰력을 제공하는 우리의 AI 모델은 업계에서 꽤 좋은 평가를 받았다.
“대표님, 대형 포털사 ‘K사’와 회계법인 ‘S사’에서 각각 내용증명을 보냈습니다. 자기들이 공개한 데이터를 무단으로 수집해서 AI 학습에 썼다며, 서비스 중단과 데이터 전량 폐기를 요구하고 있습니다.”
[지식재산권 침해 금지 및 성과물 무단 사용 중지 요청]
우리 AI 모델은 주로 우리가 직접 수집하고 정제한 재무회계 데이터를 기반으로 학습되었지만, 일부 학습 과정에서 외부 데이터를 참고한 것도 사실이었다. K사 포털에 게시된 회계 관련 블로그 콘텐츠와 재무 정보 게시글, 회계법인 S사 웹사이트에 공개된 세미나 자료, 정기 뉴스레터, 그리고 회계·재무 관련 칼럼과 가이드 문서들을 훈련 데이터로 활용했다.
공개된 웹사이트에서 데이터를 수집하는 웹 스크래핑은 업계에서 흔히 사용하는 방식이라고만 생각했다. 전체 학습 데이터에서 차지하는 비중이 크지 않았기 때문에 큰 문제가 되지 않을 거라고 생각했던 것도 실수였다.
변호사와의 상담
“변호사님, 우리가 스크래핑한 데이터는 전체 학습 데이터의 일부에 불과합니다. 그것도 공개된 콘텐츠였고요. 다른 AI 회사들도 비슷하게 데이터를 수집하는 것으로 아는데, 왜 이게 법적 문제가 되는 건가요?”
“아쉽게도 공개된 데이터라고 해서 누구든 자유롭게 사용할 수 있는 것은 아닙니다. 저작권법에서는 공개 여부보다 콘텐츠 저작자의 의사를 더 중요하게 보고 있습니다.”
“K사의 포털에 축적된 회계 관련 콘텐츠는 수년간 많은 전문가들이 작성했고 K사가 그 권리를 가지고 있는 콘텐츠입니다. S사가 공개한 세미나 자료와 뉴스레터도 회계법인의 전문성을 바탕으로 제작된 지식 자산이고요. 이런 콘텐츠를 별도 동의 없이 스크래핑해서 우리의 사업을 위해 활용했다는 점이 문제입니다. K사와 S사의 이용약관에도 모두 무단 수집 금지 조항이 존재하네요.”
“활용한 데이터의 양이 적거나, 우리 모델에 일부분에만 기여했다고 해도 면책되는 건 아닙니다.”
상황을 명확히 파악하고 나니 머리가 정리되었다. 해당 데이터를 학습 세트에서 제외하면 모델 성능에 약간의 영향이 있을 수 있지만, 그대로 서비스를 유지하자니 법적 리스크가 회사를 위협할 상황이었다. 변호사님은 현실적인 선택지를 제시했다.
“두 가지 방향을 생각해 볼 수 있겠습니다. 하나는 상대방의 주장에 반박하며 소송으로 가는 것입니다. 웹스크래핑의 정당성을 법정에서 다툴 수는 있지만, 소송이 장기화되면 투자 유치나 사업 확장에 부정적 영향을 미칠 가능성이 높습니다. 다른 하나는 상대방의 권리를 인정하고 협상으로 해결하는 것입니다. 이 경우 정식 데이터 이용 계약을 체결하고 적정한 대가를 지불하는 방향으로 갈 수 있습니다.”
고민 끝에 나는 협상을 택하기로 했다. 우리는 변호사님과 함께 K사와 S사에 먼저 면담을 제안했다. 변호사님은 협상 테이블에서 우리가 데이터 수집 과정에서 법적 검토가 부족했던 점을 인정하되, 향후 정식 데이터 이용 계약을 체결하고 합리적인 대가를 지불할 의사가 있음을 전달했다.
또한 우리는 즉시 해당 데이터를 학습 세트에서 제외하고 모델을 재학습시키는 작업에 착수했다. 우리의 성의를 보여주는 동시에, 향후 정식 계약 체결 시 깨끗한 출발점을 만들기 위함이었다.
약 3개월간의 협상 끝에, K사와 S사는 우리의 제안을 받아들여 연간 데이터 이용료 기준으로 계약을 체결하기로 합의했다. 금액은 부담스러웠지만, 서비스를 중단해야 하는 최악의 상황은 피했다. 여기에 더해서 K사와 S사의 전문 콘텐츠를 확보해 모델 학습에 활용하고 있다는 광고도 할 수 있었다.
AI 기술의 우수성만큼이나 중요한 것은 그 기반이 되는 데이터의 적법성이었다. 조금 더 이른 단계에서 데이터 권리에 대해 알 수 있었다면 더 편안하게 업무를 해 나갈 수 있었을 것이다.
법무법인 비트의 법률 TIP
AI 학습을 위한 웹스크래핑과 부정경쟁방지법
누구나 접근 가능한 웹사이트의 데이터라 하더라도, 이를 대량으로 수집하여 영리 목적으로 사용하는 행위는 저작권자의 권리를 침해할 수 있으며, 타인의 경제적 이익을 침해하는 성과물 무단 사용이 되어 부정경쟁방지 및 영업비밀 보호에 관한 법률(부정경쟁방지법) 위반에 해당할 수 있습니다.
- 공개된 데이터를 수집하기 전 해당 콘텐츠의 권리를 반드시 확인해야 합니다.
- 영리적 목적으로도 널리 사용 가능한 공개 콘텐츠(주로 공공 데이터)도 존재하므로, 법적 제한 없이 사용할 수 있는 콘텐츠를 찾아보는 것이 좋습니다.
- 필요하다면 데이터 보유자와 정식 라이선스 계약을 체결하는 것이 장기적인 리스크 관리에 유리합니다.