Created time
Dec 27, 2023 09:11 AM
date
status
category
Origin
summary
tags
type
URL
icon
password
slug
在线爬取工具
在线扒站工具:https://bazhan.wang 或 https://bazhan.me 。只允许爬取单个页面。
Archivarix:archivarix.com/en/websi 可以免费下载200个文件。
HTTrack类软件
对不懂编程的,推荐老牌的爬站工具HTTrack 。
HTTrack :https://www.httrack.com 支持Windows/Linux/OSX/Android。类似工具还有teleport ultra。
Cyotek WebCopy:cyotek.com/cyotek-webco
这些工具都只能处理静态页面内容,无法处理使用了Ajax动态数据展示的网站。
离线存档工具
定位于网站离线存档的工具,也可以作为爬取工具使用,功能更为强大,但需要一定技术基础。
ArchiveBox:https://archivebox.io
Kiwix:https://www.kiwix.org
Conifer:https://conifer.rhizome.org
这几个都支持Headless Chromium,因此可以爬取ajax动态数据的网站。
当然技术人员也可以基于万能的爬虫框架Scrapy 自己开发一个。
ArchiveBox的 Wiki 对各种 Web Archiving 工具及服务做了很好的总结,值得参考和挖掘:github.com/ArchiveBox/A
在线扒:
一键将目标网站的前端代码扒下来,自动将指定网页的HTML、CSS、JS、图片等前端资源分类,自动更改资源路径为本地路径,支持一键打包在线下载。
工具扒: