Gemini 3가 이제 Tensorlake에서 OCR 모델로 이용 가능해졌습니다
Source: Dev.to
Google의 Gemini 모델은 2.5 Flash 릴리스 이후 문서 파싱에서 뛰어난 성능을 보여왔습니다. 최신 Gemini 3는 그 한계를 더욱 넓혀, OmniDocBench에서 GPT‑5.1(0.147)과 Claude Sonnet 4.5에 비해 가장 낮은 편집 거리(0.115)를 기록했습니다.
오늘부터 Tensorlake의 Document Ingestion API를 통해 Gemini 3를 OCR 엔진으로 사용할 수 있습니다. 문서를 대량으로 ingest하고, Markdown으로 변환하며, 페이지를 분류하거나 JSON 스키마를 사용해 구조화된 데이터를 추출할 수 있습니다. Tensorlake는 큐 관리, 속도 제한 관리, 처리된 문서에 대한 웹훅을 담당합니다.
우리는 Tensorlake 내부에서 Gemini 3를 테스트했으며, “복잡한” 문서 레이아웃에 대한 결과가 즉시 나타났습니다.
사례 연구 1: 표 구조 인식
문서: Google 2024 환경 보고서
재무 및 과학 보고서는 종종 들여쓰기, 떠다니는 열, 기호와 같은 시각적 단서를 사용해 의미를 전달합니다. 우리는 부록에 있는 복잡한 “Water Use” 표를 Gemini 3에 입력했습니다.

도전 과제
표는 반(半) 무선 형태입니다: 일부 행은 구분선이 있고, 열은 명확한 경계가 없으며, 가장 오른쪽 열은 메인 블록과 분리되어 있습니다.
Gemini 3 결과: 시각적 이해
Gemini 3는 표를 완벽히 이해했습니다. 아래는 Tensorlake Cloud Dashboard의 스크린샷입니다.

사례 연구 2: VQA + 구조화 출력
문서: 주택 평면도
우리는 Gemini 3가 건축 문서의 시각적 기호를 파싱할 수 있는지 확인하기 위해 Tensorlake의 Structured Extraction 파이프라인에 통합해 테스트했습니다.
입력
주택 평면도의 원본 PDF와 필요한 필드를 정의한 Pydantic 스키마, 예시:
class KitchenOutlets(BaseModel):
kitchen_outlets: int # 레전드 아이콘에 “outlet”이라고 표시된 표준 및 GFI 전기 콘센트 수
주방 + 식사 공간 영역:

두 줄이 있는 원은 레전드에 표시된 대로 콘센트를 나타냅니다:

도전 과제
다이어그램에 “Outlet”이라는 텍스트 라벨이 없습니다; 모델은 레전드에 정의된 원‑과‑선 아이콘을 식별하고, 검색 범위를 주방 영역으로 제한한 뒤, 그 개수를 JSON 구조에 집계해야 합니다.
결과
Gemini 3는 시각적 다이어그램을 정확히 해석하여 6개의 콘센트를 포함한 유효한 JSON 객체를 반환했으며, 인근 데이터 포트와 스위치를 구분했습니다.

Tensorlake는 특화된 OCR 모델과 비전‑언어 모델을 편리한 API로 결합합니다. Gemini API를 직접 호출할 수도 있지만, 많은 프로덕션‑레디 컴포넌트를 다시 구축해야 합니다. Gemini 3는 이제 문서 읽기, 분류 및 정보 추출을 위한 Tensorlake DocAI API에 완전히 통합되었습니다.
Tensorlake가 VLM 기반 Document Ingestion API 구축 시 겪는 두 가지 가장 큰 고민을 해결합니다
- 대량 ingest 및 속도 제한 – Gemini 3는 트래픽 급증에 취약해 10 000개의 문서를 한 번에 전송하면 할당량 오류가 발생할 수 있습니다. Tensorlake는 큐를 관리하고, 백오프와 재시도를 자동으로 처리해 429 오류를 방지합니다.
- 대용량 파일 청킹 – Tensorlake는 큰 문서를 자동으로 25페이지 청크로 분할해 Gemini가 64 k 토큰 출력 제한을 초과하지 않도록 합니다.
Gemini 3를 사용해야 할 때(그리고 사용하면 안 되는 경우)
Gemini 3를 사용해야 할 때
- 복잡한 시각적 추론이 필요할 때 – 예: 차트의 색상 레전드를 데이터 표와 연결하거나 설계도상의 기호를 세는 경우.
Gemini 3를 사용하면 안 되는 경우
- 인용을 위한 바운딩 박스가 필요할 때 – Gemini 3는 객체 레이아웃 탐지를 수행하지 않습니다.
- 엄격한 텍스트 스타일 또는 폰트 감지가 필요할 때 – 취소선, 밑줄, 특정 폰트 색상과 같은 시각적 미세 차이는 무시됩니다.
이러한 작업에는 Model03과 같은 Tensorlake의 특화 모델을 고려하세요.
Gemini 3를 Tensorlake와 함께 사용하는 방법
Playground
Gemini 3는 오늘부터 Tensorlake Playground에서 실험용으로 제공됩니다:

HTTP API / SDK
from tensorlake.documentai import DocumentAI, ParsingOptions
client = DocumentAI()
parse_id = client.read(
file_url="https://tlake.link/docs/real-estate-agreement",
parsing_options=ParsingOptions(
ocr_model="gemini3"
)
)
result = client.result(parse_id)
앞으로의 계획
문서 ingest에는 다양한 엣지 케이스가 존재합니다. 우리는 사용자들이 최신 모델을 활용해 최소한의 노력으로 OCR 파이프라인 구성 요소를 조정해 빠르게 사용 사례를 해결할 수 있도록 지속적으로 지원할 예정입니다.