Skill Seekers v3.0.0: AI 시스템을 위한 범용 데이터 전처리기
Source: Dev.to
개요
Skill Seekers v3.0.0은 모든 문서 소스를 AI 시스템이 사용할 수 있는 구조화된 지식으로 변환하는 범용 문서 전처리기입니다. 하나의 명령으로 16가지 출력 형식을 생성하고, CI/CD에 바로 사용할 수 있는 패키지를 만들며, 결과를 클라우드 스토리지에 업로드할 수 있습니다.
설치
pip install skill-seekers langchain-chroma langchain-openai
빠른 시작
단일 명령으로 문서 세트를 스크랩합니다:
skill-seekers scrape --config configs/react.json
출력 형식
| 형식 | 예시 명령 |
|---|---|
| LangChain Documents | skill-seekers scrape --format langchain --config configs/react.json |
| LlamaIndex TextNodes | skill-seekers scrape --format llama-index --config configs/vue.json |
| Pinecone‑ready Markdown | skill-seekers scrape --target markdown --config configs/django.json |
| Claude skill | skill-seekers scrape --target claude --config configs/react.json |
Python에서 생성된 문서 사용하기
from skill_seekers.cli.adaptors import get_adaptor
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA
# LangChain 어댑터와 문서 로드
adaptor = get_adaptor('langchain')
documents = adaptor.load_documents("output/react/")
# 벡터 스토어 생성
vectorstore = Chroma.from_documents(documents, OpenAIEmbeddings())
# RetrievalQA 체인 구축
qa_chain = RetrievalQA.from_chain_type(
llm=ChatOpenAI(),
retriever=vectorstore.as_retriever()
)
# 지식 베이스에 질의
result = qa_chain.invoke({"query": "What are React Hooks?"})
print(result["result"])
동일한 접근 방식이 LlamaIndex, FAISS, Qdrant, Weaviate 등에서도 작동합니다.
클라우드 스토리지 업로드
# AWS S3
skill-seekers cloud upload output/ --provider s3 --bucket my-bucket
# Google Cloud Storage
skill-seekers cloud upload output/ --provider gcs --bucket my-bucket
# Azure Blob Storage
skill-seekers cloud upload output/ --provider azure --container my-container
CI/CD 통합
AI 지식을 최신 상태로 유지하기 위해 공식 GitHub Action을 추가합니다:
# .github/workflows/update-docs.yml
- uses: skill-seekers/action@v1
with:
config: configs/react.json
format: langchain
기능 요약
- 한 번의 명령으로 16가지 형식 중任意로 변환 (LangChain, LlamaIndex, Markdown, Claude 등)
- AI 에이전트를 위한 26개의 MCP 도구 (스크래핑, 패키징, 클라우드 업로드, 벡터‑DB 내보내기)
- CI/CD 준비된 전용 GitHub Action
- 클라우드 스토리지 지원: S3, GCS, Azure
- 광범위한 테스트 스위트: 100개 파일, 1,852개의 통과 테스트, 58 k 라인 파이썬 코드
- 멀티‑플랫폼: Ubuntu, macOS, Python 3.10‑3.13
전체 워크플로우
- 패키지 설치 (위 참고).
- 대상 문서 스크랩:
skill-seekers scrape --format langchain --config configs/react.json. - 적절한 어댑터로 생성된 문서 로드.
- 벡터 스토어 생성 (예: Chroma) 및 RAG 파이프라인 구축.
- 선택 사항: 출력물을 클라우드 스토리지에 업로드하거나 Claude 스킬로 배포.
모든 단계는 원시 문서에서 작동하는 RAG 파이프라인이 완성될 때까지 약 15 분 정도면 완료됩니다.
자료
- 웹사이트:
- GitHub 저장소:
- 문서:
- PyPI:
Skill Seekers v3.0.0은 2026년 2월 10일에 출시되었습니다.