ScrapeGraphAI

用AI驱动的内容抓取,将网站转化为清晰有序的数据!

2024-05-10

ScrapeGraphAI 是一款革命性的 Python 库,通过结合大型语言模型(LLMs)和直接图逻辑技术,重新定义了网络爬取方式。它允许用户为网页和本地文档(包括 XML、HTML、JSON 和 Markdown 文件)构建高效的爬取流程。使用 ScrapeGraphAI 时,用户只需指定需要提取的信息,其余工作都由库自动完成。

核心功能:

  • SmartScraperGraph:根据用户指令和源网址从单个页面提取信息
  • 多页面爬取:支持通过并行 LLM 调用从多个页面提取数据
  • 多样化流程:提供 SearchGraph、SpeechGraph 和 ScriptCreatorGraph 等多种流程满足不同爬取需求
  • LLM 兼容性:支持 OpenAI、Groq、Azure、Gemini 及通过 Ollama 运行的本地模型
  • 多语言 SDK:提供 Python 和 Node.js 开发工具包便于集成

ScrapeGraphAI 是数据探索与研究的理想工具,通过强大的 AI 驱动解决方案实现轻松数据提取。该库采用 MIT 开源许可,欢迎社区贡献。

Web Scraping Artificial Intelligence Data Extraction LLM Python