Firecrawl
适用范围
在以下情况使用本页面:
- 您想要支持 Firecrawl 的 web 提取
- 您需要 Firecrawl API 密钥
- 您想要 web_fetch 的反机器人提取
Moltbot 可以使用 Firecrawl 作为 web_fetch 的回退提取器。它是一个托管
内容提取服务,支持机器人规避和缓存,这有助于
处理 JS 重的站点或阻止纯 HTTP 获取的页面。
获取 API 密钥
- 创建 Firecrawl 账户并生成 API 密钥。
- 将其存储在配置中或在网关环境中设置
FIRECRAWL_API_KEY。
配置 Firecrawl
{
tools: {
web: {
fetch: {
firecrawl: {
apiKey: "FIRECRAWL_API_KEY_HERE",
baseUrl: "https://api.firecrawl.dev",
onlyMainContent: true,
maxAgeMs: 172800000,
timeoutSeconds: 60
}
}
}
}
}注意:
- 当存在 API 密钥时,
firecrawl.enabled默认为 true。 maxAgeMs控制缓存结果可以有多旧(ms)。默认为 2 天。
隐身/机器人规避
Firecrawl 为机器人规避(basic、stealth 或 auto)公开了代理模式参数。
Moltbot 始终对 Firecrawl 请求使用 proxy: "auto" 加上 storeInCache: true。
如果省略代理,Firecrawl 默认为 auto。auto 在基本尝试失败时使用隐身代理重试,这可能会使用更多的积分
而不是仅基本抓取。
web_fetch 如何使用 Firecrawl
web_fetch 提取顺序:
- Readability(本地)
- Firecrawl(如果配置)
- 基本 HTML 清理(最后回退)
有关完整的 web 工具设置,请参阅 Web 工具。