告别链接失效:开源工具 ArchiveBox 的完整网页存档方案

在瞬息万变的互联网时代,你是否曾经历过这样的场景:精心收藏的网页链接,几天后却变成了冰冷的”404 Not Found”;那份至关重要的研究资料,在你最需要时却显示”内容已被删除”。在信息爆炸却又转瞬即逝的数字海洋中,我们每天都在面临宝贵内容消失的风险。ArchiveBox作为一款开源的自托管网页归档工具,正是为解决这一痛点而生。它能够将任何有价值的网页完整地保存到本地,包括文字、图片、PDF甚至音视频内容,建立你自己的私人数字图书馆。简单来说,它就像是一个”时光机器”,能够捕捉网页在某一时刻的完整状态,让你在任何时候都能重新访问当时的内容。

以前经常用 Internet Archive 来保存网页内容,但也有不少问题,存下来的页面内容经常缺东少西,视频播放不了,图片加载不出来。

所以需要集中工具配合着用,单靠一个不太够。

直到最近,在 GitHub 看到一个叫 ArchiveBox 的开源项目,狂揽了 25000+ Star,专门用来保存网页内容。

ArchiveBox是一款开源自托管网页归档工具,支持HTML、PDF、PNG截图、视频等多种格式永久保存网页内容。通过Docker或pip快速部署,支持浏览器扩展一键保存、定时自动抓取、全文搜索等功能,让你彻底掌控自己的数字记忆,告别404链接失效。GitHub已收获25K+ Star,是个人知识管理和网页内容备份的终极解决方案。

相当于给每个网页做了多重备份,就算某个格式以后打不开了,还有其他方式能看。

img

多格式存档,怎么都能打开

ArchiveBox 存档一个网页的时候,会同时生成多份不同格式的备份。

比如用浏览器渲染后生成 PDF 和截图,用 wget 下载完整的 HTML+CSS+JS 文件,还会用 SingleFile 把整个页面压缩成单个 HTML 文件。

这样做的好处就是,十年后就算某个技术淘汰了,你还有其他格式可以查看。

Screenshot of ArchiveBox dashboard

视频音频都能下载

如果是 YouTube、Bilibili 这类视频网站,ArchiveBox 还能把视频文件直接下载下来,甚至连字幕和封面图都不漏。

另外像 SoundCloud 的音频、Twitter 的帖子和评论,也都能完整保存。对经常想要收藏教程视频或者音乐的朋友来说真的很实用。

img

代码仓库一键克隆

如果碰到 GitHub 或 GitLab 的链接时,ArchiveBox 会自动克隆整个代码仓库到本地。

不光是当前版本,连历史提交记录都在,相当于把整个项目搬回家了。

img

另外几个值得一说的实用功能:

浏览器扩展:提供插件安装,可以一边浏览网页一边随手保存,不用每次都复制链接;

定时抓取:可以从 Pocket、RSS 订阅源自动导入链接,设置成每天或每周定时存档;

Web 管理界面:除了命令行,还有个网页界面可以打标签、搜索、查看日志;

数据格式通用:存的都是 HTML、JSON、PDF 这些标准格式,不需要专门软件就能打开,放十几年都不怕。

三步安装,轻松上手

项目提供了 Docker 快速部署方式,只需要三步就能搞定:

1、建个目录,下载配置文件:

mkdir-p ~/archivebox/data && cd ~/archiveboxcurl-fsSL'https://docker-compose.archivebox.io' > docker-compose.yml

2、初始化一下:

docker compose run archivebox init --setup

3、启动服务:

docker compose up

打开 http://localhost:8000 就能用了。

不想用 Docker 的话,pip 本地安装也可以,并且支持 Linux、macOS、Windows 系统。

image-20251021105940137

写在最后

经常收藏链接的人可以试试这工具,特别是做研究、写文章需要引用资料的时候。

项目开源免费,数据全存自己电脑上,不用担心第三方服务哪天倒闭了。

就是比较占硬盘空间,特别需要保存视频的可能不动就是几个 G。还有一些需要登录才能看的内容,设置起来会稍微麻烦点。

不过话说回来,与其担心某天链接失效找不回来,不如提前存一份在本地。

就像给重要内容买了个备份,用不用得上另说,起码心里踏实。

GitHub 项目地址:https://github.com/ArchiveBox/ArchiveBox

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!