使用简单电子表格的强
“我喜欢 Screaming Frog 和 URL Profiler 等工具,但事实证明,大功能可以提供更大的灵活性,因为它可以组织输出、执行一系列集成搜索并将其转换为动态报告以供持续维护,从而节省时间。Google Sheets 还能够为您创建自定义脚本,因此您可以连接到多个 API,甚至可以抓取和转换JSON输出。嘿,它也是免费的!- Dan Butler
“就我个人经验而言,Google Docs 是迄今为止功能最丰富、功能最强大、速度最快的工具。我先从 ImportXML 开始,在逐渐使用 Google Scripts 和更强大、更稳定、由 cron 驱动的用法之前,我使用过它。偶尔,我会使用 Python 来构建自己的抓取工具,但到目前为止,这并没有真正证明是一种高效的时间利用方式。” - Tom Critchlow
“我们拥有自己的内部工具集。它基于 Python 和 Cython 构建,并且拥有 cashapp 电话号码数据 非常强大的正则表达式引擎,因此我们可以提取任何我们想要的内容。当我们需要它们执行一些非常独特的操作时,我们也会编写自定义工具,例如分析图像类型/压缩。对于非常非常大的网站(数百万页),我们可以使用 DeepCrawl。但我们的内部工具集 99% 的时间都能解决问题,并且为我们提供了更大的灵活性。” - Ian Lowry
“虽然我现在知道很多 WYSIWYG 工具,但我仍然喜欢编写脚本。这样我就能得到我想要的东西,而且格式也正是我想要的。” - Mike King
问题 3:网页抓取时需要注意哪些常见的陷阱?
“坏数据。它包括隐藏字符、编码问题和糟糕的 HTML,有时一些聪明的系统管理员会给你提供垃圾数据。一般来说,我宁愿为 API 支付更多费用,也不愿抓取数据。” - Dave Suttimano
“仅仅因为你可以抓取某些东西并不意味着你应该这样做,有时太多的数据只会混淆最终目标。在抓取一段数据之前,我喜欢概述我要抓取的内容以及我为什么需要它/我要用这些数据做什么。利用前端大脑的力量,让抓取为你自动完成其余工作,你将获得更好的结果。” - 查德·金里奇
頁:
[1]