Skill Seekers v3.0.0: AI 시스템을 위한 범용 데이터 전처리기

발행: (2026년 2월 9일 오전 07:30 GMT+9)
4 분 소요
원문: Dev.to

Source: Dev.to

개요

Skill Seekers v3.0.0은 모든 문서 소스를 AI 시스템이 사용할 수 있는 구조화된 지식으로 변환하는 범용 문서 전처리기입니다. 하나의 명령으로 16가지 출력 형식을 생성하고, CI/CD에 바로 사용할 수 있는 패키지를 만들며, 결과를 클라우드 스토리지에 업로드할 수 있습니다.

설치

pip install skill-seekers langchain-chroma langchain-openai

빠른 시작

단일 명령으로 문서 세트를 스크랩합니다:

skill-seekers scrape --config configs/react.json

출력 형식

형식예시 명령
LangChain Documentsskill-seekers scrape --format langchain --config configs/react.json
LlamaIndex TextNodesskill-seekers scrape --format llama-index --config configs/vue.json
Pinecone‑ready Markdownskill-seekers scrape --target markdown --config configs/django.json
Claude skillskill-seekers scrape --target claude --config configs/react.json

Python에서 생성된 문서 사용하기

from skill_seekers.cli.adaptors import get_adaptor
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA

# LangChain 어댑터와 문서 로드
adaptor = get_adaptor('langchain')
documents = adaptor.load_documents("output/react/")

# 벡터 스토어 생성
vectorstore = Chroma.from_documents(documents, OpenAIEmbeddings())

# RetrievalQA 체인 구축
qa_chain = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(),
    retriever=vectorstore.as_retriever()
)

# 지식 베이스에 질의
result = qa_chain.invoke({"query": "What are React Hooks?"})
print(result["result"])

동일한 접근 방식이 LlamaIndex, FAISS, Qdrant, Weaviate 등에서도 작동합니다.

클라우드 스토리지 업로드

# AWS S3
skill-seekers cloud upload output/ --provider s3 --bucket my-bucket

# Google Cloud Storage
skill-seekers cloud upload output/ --provider gcs --bucket my-bucket

# Azure Blob Storage
skill-seekers cloud upload output/ --provider azure --container my-container

CI/CD 통합

AI 지식을 최신 상태로 유지하기 위해 공식 GitHub Action을 추가합니다:

# .github/workflows/update-docs.yml
- uses: skill-seekers/action@v1
  with:
    config: configs/react.json
    format: langchain

기능 요약

  • 한 번의 명령으로 16가지 형식 중任意로 변환 (LangChain, LlamaIndex, Markdown, Claude 등)
  • AI 에이전트를 위한 26개의 MCP 도구 (스크래핑, 패키징, 클라우드 업로드, 벡터‑DB 내보내기)
  • CI/CD 준비된 전용 GitHub Action
  • 클라우드 스토리지 지원: S3, GCS, Azure
  • 광범위한 테스트 스위트: 100개 파일, 1,852개의 통과 테스트, 58 k 라인 파이썬 코드
  • 멀티‑플랫폼: Ubuntu, macOS, Python 3.10‑3.13

전체 워크플로우

  1. 패키지 설치 (위 참고).
  2. 대상 문서 스크랩: skill-seekers scrape --format langchain --config configs/react.json.
  3. 적절한 어댑터로 생성된 문서 로드.
  4. 벡터 스토어 생성 (예: Chroma) 및 RAG 파이프라인 구축.
  5. 선택 사항: 출력물을 클라우드 스토리지에 업로드하거나 Claude 스킬로 배포.

모든 단계는 원시 문서에서 작동하는 RAG 파이프라인이 완성될 때까지 약 15 분 정도면 완료됩니다.

자료

  • 웹사이트:
  • GitHub 저장소:
  • 문서:
  • PyPI:

Skill Seekers v3.0.0은 2026년 2월 10일에 출시되었습니다.

0 조회
Back to Blog

관련 글

더 보기 »

sunpeak은 MCP 앱에 전념한다

개요: MCP Apps는 이제 ChatGPT, Claude, Goose 및 VS Code에서 실행됩니다. Claude는 1월 26일에 MCP App 지원을 발표했으며, ChatGPT는 2월 4일에 이를 따랐습니다. 2월 현재…