[Paper] 하이브리드 지능형 시스템을 위한 외부 메모리 레이어, 검증 및 계획으로서 LLMs를 활용한 자동 온톨로지 구축
Source: arXiv - 2604.20795v1
Overview
이 논문은 하이브리드 AI 아키텍처를 제안한다. 이 아키텍처는 대형 언어 모델(LLMs)과 외부, 구조화된 온톨로지(RDF/OWL 지식 그래프)와를 결합한다. 문서, API, 대화 로그에서 자동으로 그래프를 구축하고 지속적으로 업데이트함으로써, 시스템은 LLM에 지속적이고 검증 가능한 메모리 레이어를 제공하여 다단계 추론, 계획 및 설명 가능성을 향상시킨다.
핵심 기여
- 자동화된 온톨로지 파이프라인: 이기종 소스에서 엔드‑투‑엔드 추출(엔티티 및 관계 감지, 정규화, 트리플 생성) 후 SHACL/OWL 검증.
- 하이브리드 추론 엔진: 전통적인 벡터 기반 검색‑증강 생성(RAG)과 그래프 기반 추론 및 도구 사용을 LLM 프롬프트 중 결합.
- 생성‑검증‑수정 루프: 출력이 온톨로지 제약과 대조되어 자동 교정 또는 무효 결과 거부가 가능.
- 실증 검증: 고전적인 계획 벤치마크(예: 하노이의 탑)와 장기적·구조화된 지식이 필요한 작업에서 측정 가능한 향상을 보여줌.
- 실제 에이전트를 위한 청사진: 이 아키텍처를 로봇공학, 기업 어시스턴트, 신뢰할 수 있고 설명 가능한 결정을 필요로 하는 자율 소프트웨어 에이전트에 어떻게 적용할 수 있는지 개요.
방법론
-
Data Ingestion – 시스템은 세 가지 채널에서 원시 데이터를 가져옵니다:
- 비구조화 텍스트 (PDF, 웹 페이지)
- 구조화된 API 사양 (OpenAPI, GraphQL)
- 대화 로그 (채팅 전사, 음성‑어시스턴트 상호작용)
-
Information Extraction – 파인‑튜닝된 LLM(또는 전용 NER/RE 모델)이 엔터티와 관계를 태깅한 뒤, 이를 공유 스키마(예: CURIE 사용)로 정규화합니다.
-
Triple Generation – 정규화된 엔터티와 관계가 RDF 트리플(
subject – predicate – object) 형태로 출력됩니다. -
Ontology Construction & Validation
- 트리플을 OWL 온톨로지에 병합합니다.
- SHACL 형태와 OWL 공리를 사용해 도메인/레인지, 카디널리티, 논리적 제약을 강제합니다.
- 유효하지 않은 트리플은 거부되거나 재생성을 위해 다시 전송됩니다.
-
Hybrid Retrieval at Inference Time – 사용자의 질의가 들어오면:
- 벡터 스토어가 상위‑k 관련 패시지를 반환합니다(RAG).
- SPARQL 엔진이 관련 그래프 서브‑구조를 가져옵니다.
- 두 컨텍스트를 연결해 LLM에 전달하고, LLM은 외부 도구(예: 플래너, 계산기)를 호출할 수도 있습니다.
-
Verification Loop – LLM이 생성한 답변을 다시 트리플로 파싱하고 온톨로지에 대해 재검증합니다. 위반이 감지되면 시스템은 답변을 자동으로 수정하거나 인간 검토를 위해 플래그를 지정합니다.
Results & Findings
| 지표 | 기본 LLM (RAG만 사용) | 하이브리드 LLM + 온톨로지 |
|---|---|---|
| 하노이 탑 성공률 (≤ 7 디스크) | 62 % | 84 % |
| 평균 계획 단계 오류 | 1.9 steps | 0.6 steps |
| 온톨로지 기반 검증 통과율 | 71 % (post‑hoc) | 96 % |
| 지연 시간 증가 (쿼리당) | — | + 120 ms (due to SPARQL lookup) |
What it means: 검증된 지식 그래프를 추가하면 환각을 줄이고 LLM이 여러 추론 단계에 걸쳐 객체와 제약 조건을 추적하는 능력이 향상됩니다. 적당한 지연 시간 오버헤드는 신뢰성과 설명 가능성 향상으로 상쇄됩니다.
실용적인 시사점
- 엔터프라이즈 AI 어시스턴트는 이제 제품 카탈로그, 규정 준수 규칙, 내부 프로세스 등에 대한 단일 진실 원천(온톨로지)을 참조할 수 있어, 생성된 조언이 정책을 위반하지 않도록 보장합니다.
- 로봇공학 및 자동화: 플래너가 그래프를 조회해 객체 활용 가능성, 안전 제약 조건, 작업 공간 레이아웃 등을 파악함으로써, 모든 규칙을 하드코딩하지 않아도 보다 안전한 작업 실행이 가능합니다.
- 개발자 도구: IDE 플러그인이 코드, 문서, 이슈 트래커 등으로부터 프로젝트의 지식 그래프를 자동으로 채워 넣어, LLM 기반 코드 어시스턴트가 API 계약 및 의존성 그래프에 대해 추론할 수 있게 합니다.
- 설명 가능성 및 감사 가능성: 모든 답변은 이를 정당화한 특정 삼중항(트리플)으로 추적될 수 있어, 금융, 의료, 법률 기술 분야의 규제 요구사항을 충족합니다.
- 확장 가능한 장기 메모리: 순수 RAG와 달리 그래프는 세션 간에 지속되어, 에이전트가 수주 또는 수개월에 걸쳐 지식을 축적하고 정제할 수 있으며 LLM을 재학습할 필요가 없습니다.
제한 사항 및 향후 작업
- 온톨로지 품질은 추출 정확도에 의존합니다; SHACL 검사를 거치더라도 잡음이 많은 원본 데이터는 여전히 오류를 전파할 수 있습니다.
- 현재 파이프라인은 비교적 정적 스키마를 가정합니다; 마이크로‑서비스 교체와 같은 빠른 스키마 변화는 보다 동적인 정렬 메커니즘을 필요로 할 수 있습니다.
- 확장성: 매우 큰 그래프에 대한 SPARQL 쿼리는 병목 현상이 될 수 있습니다; 저자들은 점진적 인덱싱 및 그래프 파티셔닝을 다음 단계로 제안합니다.
- 일반화: 실험은 계획 벤치마크에 초점을 맞추고 있으며, 오픈‑도메인 QA, 코드 생성, 혹은 멀티모달 작업에 대한 보다 폭넓은 평가는 아직 진행되지 않았습니다.
저자들은 자기‑지도 온톨로지 정제, LLM‑기반 도구 사용과의 tighter integration (예: 함수 호출) 및 창고 로봇과 규제가 많은 기업 환경에서의 실제 배치를 탐색할 계획입니다.
저자
- Pavel Salovskii
- Iuliia Gorshkova
논문 정보
- arXiv ID: 2604.20795v1
- Categories: cs.AI
- Published: 2026년 4월 22일
- PDF: PDF 다운로드