Skill Seekers v3.0.0:AI 系统的通用数据预处理器

发布: (2026年2月9日 GMT+8 06:30)
3 分钟阅读
原文: Dev.to

Source: Dev.to

概览

Skill Seekers v3.0.0 是一个通用的文档预处理器,可将任何文档源转换为结构化知识,供 AI 系统使用。单条命令即可生成 16 种输出格式,生成可用于 CI/CD 的包,并将结果上传至云存储。

安装

pip install skill-seekers langchain-chroma langchain-openai

快速开始

使用单条命令抓取一套文档:

skill-seekers scrape --config configs/react.json

输出格式

格式示例命令
LangChain 文档skill-seekers scrape --format langchain --config configs/react.json
LlamaIndex TextNodesskill-seekers scrape --format llama-index --config configs/vue.json
Pinecone‑ready Markdownskill-seekers scrape --target markdown --config configs/django.json
Claude 技能skill-seekers scrape --target claude --config configs/react.json

在 Python 中使用生成的文档

from skill_seekers.cli.adaptors import get_adaptor
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA

# 加载 LangChain 适配器和文档
adaptor = get_adaptor('langchain')
documents = adaptor.load_documents("output/react/")

# 创建向量存储
vectorstore = Chroma.from_documents(documents, OpenAIEmbeddings())

# 构建 RetrievalQA 链
qa_chain = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(),
    retriever=vectorstore.as_retriever()
)

# 查询知识库
result = qa_chain.invoke({"query": "What are React Hooks?"})
print(result["result"])

相同的做法同样适用于 LlamaIndex、FAISS、Qdrant、Weaviate 等。

云存储上传

# AWS S3
skill-seekers cloud upload output/ --provider s3 --bucket my-bucket

# Google Cloud Storage
skill-seekers cloud upload output/ --provider gcs --bucket my-bucket

# Azure Blob Storage
skill-seekers cloud upload output/ --provider azure --container my-container

CI/CD 集成

添加官方 GitHub Action 以保持 AI 知识库的最新:

# .github/workflows/update-docs.yml
- uses: skill-seekers/action@v1
  with:
    config: configs/react.json
    format: langchain

功能概述

  • 一键转换 为任意 16 种格式(LangChain、LlamaIndex、Markdown、Claude 等)
  • 26 种 MCP 工具 为 AI 代理提供支持(抓取、打包、云上传、向量库导出)
  • CI/CD 就绪,配备专用 GitHub Action
  • 云存储支持:S3、GCS、Azure
  • 完整测试套件:1,852 个通过的测试,覆盖 100 个文件,58 k 行 Python 代码
  • 多平台:Ubuntu、macOS、Python 3.10‑3.13

完整工作流

  1. 安装 包(见上文)。
  2. 抓取 目标文档:skill-seekers scrape --format langchain --config configs/react.json
  3. 加载 生成的文档,使用相应的适配器。
  4. 创建 向量存储(例如 Chroma)并构建 RAG 流程。
  5. 可选:将输出上传至云存储或发布为 Claude 技能。

所有步骤大约在 15 分钟内即可完成,从原始文档到可运行的 RAG 流程。

资源

  • 网站:
  • GitHub 仓库:
  • 文档:
  • PyPI:

Skill Seekers v3.0.0 于 2026 年 2 月 10 日发布。

0 浏览
Back to Blog

相关文章

阅读更多 »