🔍

Firecrawl

从网站提取干净内容,用于 RAG 与研究工作流。

分类: 网络
难度: 中等

快速配置

选择适合您环境的设置。

托管 / 远程

JSON
托管配置 json
{
  "firecrawl": {
    "url": "https://YOUR_FIRECRAWL_MCP_ENDPOINT"
  }
}

本地 CLI (npx)

JSON
本地配置 json
{
  "firecrawl": {
    "command": "npx",
    "args": ["-y", "mcp-remote", "https://YOUR_FIRECRAWL_MCP_ENDPOINT"],
    "env": {
      "FIRECRAWL_API_KEY": "YOUR_FIRECRAWL_API_KEY"
    }
  }
}

常见陷阱与修复

  • ⚠️ 注意: 反爬/robots 限制、分页处理,以及内容切分策略。
  • 🔑 始终将 API 密钥存储在环境变量中,切勿硬编码在 JSON 中。
  • 🛡️ 如果可用,从只读权限开始,以安全地验证连接。

示例提示词

连接后,尝试这些提示词以测试功能:

  • 从一个起始 URL 开始抓取文档站,并以 Markdown 提取主要内容。
  • 抓取某产品定价页,抽取套餐名称、价格和限制并整理成表格。
  • 给定一篇文章 URL,提取标题大纲并逐段总结。