ScrapeGraphAI 是一款革命性的 Python 库,通过结合大型语言模型(LLMs)和直接图逻辑技术,重新定义了网络爬取方式。它允许用户为网页和本地文档(包括 XML、HTML、JSON 和 Markdown 文件)构建高效的爬取流程。使用 ScrapeGraphAI 时,用户只需指定需要提取的信息,其余工作都由库自动完成。
核心功能:
- SmartScraperGraph:根据用户指令和源网址从单个页面提取信息
- 多页面爬取:支持通过并行 LLM 调用从多个页面提取数据
- 多样化流程:提供 SearchGraph、SpeechGraph 和 ScriptCreatorGraph 等多种流程满足不同爬取需求
- LLM 兼容性:支持 OpenAI、Groq、Azure、Gemini 及通过 Ollama 运行的本地模型
- 多语言 SDK:提供 Python 和 Node.js 开发工具包便于集成
ScrapeGraphAI 是数据探索与研究的理想工具,通过强大的 AI 驱动解决方案实现轻松数据提取。该库采用 MIT 开源许可,欢迎社区贡献。