Skill Seekers v3.0.0:AI 系统的通用数据预处理器
发布: (2026年2月9日 GMT+8 06:30)
3 分钟阅读
原文: Dev.to
Source: Dev.to
概览
Skill Seekers v3.0.0 是一个通用的文档预处理器,可将任何文档源转换为结构化知识,供 AI 系统使用。单条命令即可生成 16 种输出格式,生成可用于 CI/CD 的包,并将结果上传至云存储。
安装
pip install skill-seekers langchain-chroma langchain-openai
快速开始
使用单条命令抓取一套文档:
skill-seekers scrape --config configs/react.json
输出格式
| 格式 | 示例命令 |
|---|---|
| LangChain 文档 | skill-seekers scrape --format langchain --config configs/react.json |
| LlamaIndex TextNodes | skill-seekers scrape --format llama-index --config configs/vue.json |
| Pinecone‑ready Markdown | skill-seekers scrape --target markdown --config configs/django.json |
| Claude 技能 | skill-seekers scrape --target claude --config configs/react.json |
在 Python 中使用生成的文档
from skill_seekers.cli.adaptors import get_adaptor
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA
# 加载 LangChain 适配器和文档
adaptor = get_adaptor('langchain')
documents = adaptor.load_documents("output/react/")
# 创建向量存储
vectorstore = Chroma.from_documents(documents, OpenAIEmbeddings())
# 构建 RetrievalQA 链
qa_chain = RetrievalQA.from_chain_type(
llm=ChatOpenAI(),
retriever=vectorstore.as_retriever()
)
# 查询知识库
result = qa_chain.invoke({"query": "What are React Hooks?"})
print(result["result"])
相同的做法同样适用于 LlamaIndex、FAISS、Qdrant、Weaviate 等。
云存储上传
# AWS S3
skill-seekers cloud upload output/ --provider s3 --bucket my-bucket
# Google Cloud Storage
skill-seekers cloud upload output/ --provider gcs --bucket my-bucket
# Azure Blob Storage
skill-seekers cloud upload output/ --provider azure --container my-container
CI/CD 集成
添加官方 GitHub Action 以保持 AI 知识库的最新:
# .github/workflows/update-docs.yml
- uses: skill-seekers/action@v1
with:
config: configs/react.json
format: langchain
功能概述
- 一键转换 为任意 16 种格式(LangChain、LlamaIndex、Markdown、Claude 等)
- 26 种 MCP 工具 为 AI 代理提供支持(抓取、打包、云上传、向量库导出)
- CI/CD 就绪,配备专用 GitHub Action
- 云存储支持:S3、GCS、Azure
- 完整测试套件:1,852 个通过的测试,覆盖 100 个文件,58 k 行 Python 代码
- 多平台:Ubuntu、macOS、Python 3.10‑3.13
完整工作流
- 安装 包(见上文)。
- 抓取 目标文档:
skill-seekers scrape --format langchain --config configs/react.json。 - 加载 生成的文档,使用相应的适配器。
- 创建 向量存储(例如 Chroma)并构建 RAG 流程。
- 可选:将输出上传至云存储或发布为 Claude 技能。
所有步骤大约在 15 分钟内即可完成,从原始文档到可运行的 RAG 流程。
资源
- 网站:
- GitHub 仓库:
- 文档:
- PyPI:
Skill Seekers v3.0.0 于 2026 年 2 月 10 日发布。