회사의 AI 역량은 결국 데이터 역량이다

Published: 1 day ago (March 8, 2026 at 05:33 PM EDT)

10 min read

Source: Byline Network

crowdworks CTO

AI 레디 데이터와 데이터 거버넌스

“회사의 AI 역량은 결국 데이터 역량이다.”
양수열 크라우드웍스 CTO(표지 사진)는 5일에 개최한 ‘AI-Ready DATA 전략’ 웨비나에서 **‘AI 레디 데이터를 위한 데이터 통합과 거버넌스 체계’**를 주제로 발표하면서 이같이 강조했다.

많은 기업과 조직이 생성형 AI를 도입해 새로운 비즈니스 가치를 창출하려 시도하지만, 목표 달성을 위한 과정은 쉽지 않다. 우수한 기반 AI 모델을 채택하고, 사내 보유 데이터를 연동시키는 검색증강생성(RAG) 시스템을 구축하는 방안이 일반화됐지만, 실제 성과를 내려면 넘어야 할 산이 많다.

양수열 CTO는 “모델이나 RAG 프로세스로 회사가 AI를 도입해 비즈니스 가치를 높이는 데 한계가 존재한다”며 “일반 기업이나 조직이 AI 도입에서 주안점을 둬야 하는 부분은 사내 데이터를 어떻게 AI 레디 데이터 형태로 잘 관리하고, 유지하는가에 있다”고 말했다. 그는 “AI를 도입해 회사의 경쟁력을 높이려 할 때 모델은 사실상 제어 불가능한 영역이고, 경쟁 기업도 시중의 좋은 모델을 비슷하게 쓸 것”이라며 “사내에서 추출되는 데이터를 잘 관리할 수 있는 거버넌스 체계를 갖추는 게 경쟁력”이라고 강조했다.

대부분의 회사는 다양한 유형의 데이터를 내부에 저장해왔다.

정형 데이터: 데이터베이스에 저장
비정형 데이터(문서·이미지·동영상 등): KMS나 게시판 등에 저장

이러한 데이터를 대형언어모델(LLM)에서 활용하려면, 검색엔진과 벡터 DB에 정형·비정형 데이터를 표준화된 데이터셋으로 변환해 적재하고 LLM에 연결하는 RAG 시스템이 필요하다. 정형 데이터를 벡터화하는 작업과 비정형 데이터를 표준화·변환하는 작업이 요구된다. 특히 문서 데이터는 텍스트뿐 아니라 표·그래프 등 시각화된 바이너리 파일에서 정확히 추출해야 하며, 이 과정에 소형언어모델(SLM)이나 LLM이 활용될 수 있다.

RAG 시스템 구축 프로세스

각종 비정형 데이터를 AI 모델이 활용할 수 있는 형태로 변환하는 작업은 까다롭다. 국내 기업 문서는 요약을 선호하고, 긴 텍스트보다 표·그래프·다이어그램을 많이 사용한다. 계약서·공문서·청구서 등 다양한 양식과 복잡한 구조를 가진 문서를 AI 레디 데이터로 변환하려면 많은 공수가 필요하다.

AI 레디 데이터를 준비한 뒤, 사용자와 LLM 사이에서 검색엔진이나 벡터 DB가 질문에 관련된 자료를 찾아 LLM에 전달하고, LLM의 1차 답변을 받아 사용자에게 맥락에 맞는 답변을 제공하는 RAG 애플리케이션이 완성된다.

RAG workflow

이러한 일련의 작업이 이루어지려면 다음 단계가 필요하다.

데이터 수집
모델 개발
데이터 학습
평가·검증
서비스 배포
모니터링·개선

무엇보다 이 프로세스는 일회성이 아니라 지속적으로 반복·검증·개선되는 것이 중요하다.

양수열 CTO는 “사내에서 AI 시스템을 구축하겠다는 의사결정을 하고 데이터와 시스템을 구축하는 일회성 이벤트가 아니라 계속 반복돼야 하는 과정”이라며 “RAG로 구축된 데이터와 모델의 성능을 평가해 배포한 뒤에도 답변의 기대치 충족을 살피는 에이전트 성능 평가가 필요하고, 정확도·편향 방지·규제 준수 같은 안정성 평가는 모니터링·운영·개선 단계에서 지속적으로 이뤄져야 한다”고 말했다.

RAG 시스템 중심의 AI 환경을 도입한다고 해서 기업 경쟁력이 바로 향상되는 것은 아니다. 기술적인 구성 요소 자체는 경쟁자와 차별화되기 어렵다.

양 CTO는 “통상 기업이 사내에서 활용하는 AI 모델은 오픈모델이며, 최근 오픈 모델은 파인튜닝으로 성능을 끌어올리기 힘든 상황”이라며 “기존 비즈니스 애플리케이션 프로세스를 AI 시스템과 연동하는 부분도 크게 차별화하기 어렵다”고 설명했다. 그는 “결국 회사가 AI 시스템에서 차별점으로 둘 부분은 사내 데이터를 어떻게 AI 레디 데이터 형태로 잘 관리하고 유지하는가에 있다”며 “시중 모델과 RAG 방법론의 진화를 감안해 시스템적 변화를 기본으로 삼고, 그때그때 새로운 모델이나 방법을 잘 도입하는 체계가 중요하다”고 강조했다.

RAG architecture

데이터 품질 평가와 지속적 개선

데이터 관리에서는 품질 평가·데이터셋 적정성 등의 분석이 핵심이다. 데이터셋 품질을 평가하고 지속적으로 고품질 데이터를 RAG로 배포하는 관리 체계가 필요하다. 양 CTO는 “데이터셋의 결함이나 문제점을 지속적으로 Human-in-the-Loop(휴먼 인 더 루프)로 개선해야 한다”고 강조하며, “데이터 개선이 회사 내부에서 평가되고, 그 결과가 RAG나 에이전트에 반영되는 지속적 루프를 자동화하는 것도 중요하다”고 밝혔다.

평가에서는 질문과 답변에 대한 설정도 중요하다. 사용자의 질문과 AI의 답변을 도메인 특화 데이터로 보고, 특정 질의·답변을 데이터셋으로 자산화해야 한다.

Data quality loop

질문·답변 결과에 대한 정량적 평가 지표와 정성적 평가 기준을 마련하고, 이를 가이드라인으로 만들어 AI 시스템 개선에 활용한다.
가능하면 데이터와 AI에 대한 경계를 분리해 각각 관리하고, 정성·정량 부분에 대한 가이던스를 자체적으로 만들고 이를 통해 데이터를 관리하는 체계가 필요하다.

글. 바이라인네트워크
김우용 기자 – yong2@byline.network

회사의 AI 역량은 결국 데이터 역량이다

AI 레디 데이터와 데이터 거버넌스

RAG 시스템 구축 프로세스

데이터 품질 평가와 지속적 개선

Related posts

알파고 대국 10주년, AI는 대결이 아니라 협업이다 (feat. 이세돌 9단)

[주간 리포트] 숫자로 보는 탈쿠팡 트렌드

구글 앱 마켓 수수료 인하…게임 업계 최대 수혜자는 누구?

앤트로픽 이어 오픈AI도 코드 보안 기능 공개…보안업계 ‘촉각’