免费网站爬取工具汇总 - 知乎
2023-12-27
| 2024-2-27
0  |  阅读时长 0 分钟
Created time
Dec 27, 2023 09:11 AM
date
status
category
Origin
summary
tags
type
URL
icon
password
slug
notion image

在线爬取工具

在线扒站工具:https://bazhan.wanghttps://bazhan.me 。只允许爬取单个页面。
Archivarix:archivarix.com/en/websi 可以免费下载200个文件。

HTTrack类软件

对不懂编程的,推荐老牌的爬站工具HTTrack 。
HTTrack :https://www.httrack.com 支持Windows/Linux/OSX/Android。类似工具还有teleport ultra。
Cyotek WebCopy:cyotek.com/cyotek-webco
这些工具都只能处理静态页面内容,无法处理使用了Ajax动态数据展示的网站。

离线存档工具

定位于网站离线存档的工具,也可以作为爬取工具使用,功能更为强大,但需要一定技术基础。
这几个都支持Headless Chromium,因此可以爬取ajax动态数据的网站。
当然技术人员也可以基于万能的爬虫框架Scrapy 自己开发一个。
ArchiveBox的 Wiki 对各种 Web Archiving 工具及服务做了很好的总结,值得参考和挖掘:github.com/ArchiveBox/A
 
 
 
 
在线扒:
一键将目标网站的前端代码扒下来,自动将指定网页的HTML、CSS、JS、图片等前端资源分类,自动更改资源路径为本地路径,支持一键打包在线下载。
工具扒:
Python 项目一键生成所有依赖包清单方法总结 - CSDN 博客在 Vercel 中建立 Go + Gin 的网站服务 - minoic`s bloc
Loading...