Reducto가 Deep Extract를 출시

발행: 0개월 전 (2026년 4월 7일 오전 01:13 GMT+9)

10 분 소요

Source: Hacker News

번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

Deep Extract 소개

오늘 우리는 구조화된 추출을 위한 가장 강력한 업데이트인 Deep Extract를 출시합니다.

Deep Extract는 자체 출력이 정확해질 때까지 검증하고 수정하는 새로운 에이전트‑하네스 접근 방식입니다. 인간‑인‑루프와 마찬가지로, Deep Extract는 에이전트‑인‑루프를 갖추어 인간 검토자의 부담을 자율 검증 사이클로 경감시키며, 정확성에 대해 스스로 책임을 집니다.

이는 특히 청구서 항목, 중개인 명세서 거래, 장비 목록 등과 같은 긴 항목 목록에 강력합니다. 베타 운영 단계에서 Deep Extract는 2,500 페이지까지의 문서에서 이미 2,800만 개 이상의 필드를 추출했으며, 가능한 범위를 계속 확장하고 있습니다.

가장 중요한 문서에 대해서는 99–100 % 필드 정확도를 달성하여, 추출 작업에서 전문가 수준의 인간 라벨러보다 뛰어난 성과를 보입니다.

Deep Extract cover

오늘날 장기 추출 솔루션의 과제

지난 1년 동안 고객들로부터 계속 듣게 된 이야기는 동일했습니다. 기존 추출 파이프라인이 길고 복잡한 문서—수십 페이지에 달하는 청구서, 수백 페이지에 이르는 재무제표—에서 제대로 작동하지 않는다는 것이었습니다. 총계가 맞지 않고, 항목이 완전히 누락되었습니다. 이를 어떻게 처리하고 있느냐고 물었을 때, 답은 거의 항상 동일했습니다. 사람을 고용해 인간‑인‑루프(HITL) 수동 검사를 진행하고 있다는 것이었습니다.

문제는 모델이 문서를 읽는 데 능력이 부족해서가 아니라, 단일 패스 추출에는 자체 오류를 잡아내는 메커니즘이 없으며, 모델이 게을러진다는 점입니다. 길고 반복적인 작업에서는 종종 중간에 멈추거나, 데이터를 통합하거나, 모든 행을 처리하지 않고 건너뛰는 경향이 있습니다.

이 문제는 인용이 필요할 때 더욱 심각해집니다. 많은 고객에게 인용은 선택 사항이 아니라, 결과를 입증하기 위한 필수 조건입니다.

Deep Extract types

Reducto의 에이전트 하네스 접근법

장기‑지향 에이전트와 에이전트‑하네스 아키텍처의 부상은 더 나은 방법을 제시했습니다. 에이전트가 다른 분야에서 복잡하고 다단계 작업을 신뢰성 있게 수행할 수 있다면, 추출에도 동일한 접근법을 적용할 수 있습니다: 문제를 분해하고, 작업을 검증하며, 올바를 때까지 반복합니다.

Deep Extract는 자동 추출에 이 원칙을 적용합니다. 단일 패스가 아니라 에이전시 루프를 실행합니다:

추출.
결과를 원본 문서와 대조하여 검증.
누락되었거나 일관되지 않은 부분을 식별.
정의된 품질 임계값을 만족할 때까지 재추출.

복잡한 문서를 하나의 거대한 작업으로 다루는 대신, Deep Extract는 서브‑에이전트를 배치해 문제를 분해하고 각 부분을 정복합니다. 이를 통해 수백 페이지에 걸쳐 수천 행이 있는 문서에서도 정확성을 유지할 수 있습니다.

Deep Extract harness

핵심은 “올바른” 결과가 어떤 모습인지 시스템 프롬프트에 직접 정의할 수 있다는 점입니다. 예를 들어 청구서의 경우 다음과 같이 정의할 수 있습니다:

“모든 항목의 합계가 명시된 총액과 일치하도록 합니다.”

재무제표의 경우:

“자산이 부채와 자본의 합과 일치하는지 확인합니다.”

이러한 기준이 없으면, 대안은 사람이 모든 필드를 수동으로 확인하는 것이며, 이는 문서 길이에 따라 몇 시간에서 며칠까지 걸릴 수 있습니다.

인용 플래그가 활성화되면, 출력에 추출된 모든 필드에 대한 세밀한 바운딩 박스도 포함됩니다. 이는 감사 추적, 인간 검토 워크플로, 그리고 값이 원본 문서의 정확한 위치와 연결되어야 하는 모든 애플리케이션에 강력한 기능을 제공합니다.

Deep Extract citations

실제 생산 사례에서 Deep Extract가 열어주는 것

베타 테스트 동안 우리는 Reducto 디자인 파트너와 긴밀히 협력하여 Deep Extract가 실제 문서와 사용 사례에서 제대로 작동하는지 확인했습니다. 많은 엔지니어링 팀이 시장에 나와 있는 다른 모든 솔루션을 시도했지만 효과를 보지 못했습니다.

전형적인 사용 사례에는 다음과 같은 추출이 포함되었습니다:

카운티의 결제 보고서 (전송 번호, 수표 번호, 가격, 설명, 결제 날짜 등)
활성 거래 포지션 보고서 (심볼, 원가 기준, 실현되지 않은 손익)
농업 청구서 (청구서 번호, CHQ 번호/날짜, 청구 금액, 공제, 순액 등)
가축 판매 청구서, 카운티 결제 승인 보고서, 주거 허가 신청서, 작업 상세 보고서

각 라인 아이템은 10개 이상의 열을 가질 수 있으며, 문서당 수천 페이지에 달합니다. 고객은 10–20 % 수준의 필드 정확도에서 Reducto의 Deep Extract로 전환한 후 99–100 % 정확도로 향상되었습니다.

Deep Extract가 더 많은 작업을 수행하기 때문에 표준 추출 호출보다 시간이 더 오래 걸립니다. 실제 대안인 500페이지 분량의 펀드 명세서를 사람이 필드별로 수동 검토하는 것과 비교했을 때 더 빠르고, 비용도 저렴하며, 규모에 따라 일관된 결과를 제공합니다.

오늘 바로 시작하세요

Deep Extract는 이제 우리 Extract 엔드포인트의 구성 옵션으로 제공됩니다. 추출 설정에 deep_extract: true를 설정하고, 원한다면 시스템 프롬프트에 검증 기준을 추가하여 활성화하세요.

deep_extract: true

개발자를 위한: 전체 문서는 .에서 확인하세요.

기업 팀을 위한: 대규모로 고위험 문서를 처리하고 Deep Extract가 적합한지 논의하고 싶다면 직접 연락 주세요.

우리는 문서와의 상호작용의 새로운 경계를 계속 확장하게 되어 기쁩니다.

Reducto가 Deep Extract를 출시

Deep Extract 소개

오늘날 장기 추출 솔루션의 과제

Reducto의 에이전트 하네스 접근법

실제 생산 사례에서 Deep Extract가 열어주는 것

오늘 바로 시작하세요

관련 글

NYC 가정은 어느 구에서든 살기 위해 125,000달러 이상의 소득이 필요

펩타이드: 어디서부터 시작할까?

Show HN: TTF-DOOM – TrueType 폰트 힌팅 안에서 실행되는 레이캐스터

이란에서의 미국 조종사 구조가 실패한 핵 회수의 은폐였는가?