惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

www.infosecurity-magazine.com
www.infosecurity-magazine.com
Security Archives - TechRepublic
Security Archives - TechRepublic
TaoSecurity Blog
TaoSecurity Blog
Cloudbric
Cloudbric
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
N
News and Events Feed by Topic
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
S
Securelist
The Cloudflare Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
D
DataBreaches.Net
S
Schneier on Security
L
LangChain Blog
Jina AI
Jina AI
M
MIT News - Artificial intelligence
Recent Announcements
Recent Announcements
T
Tenable Blog
B
Blog RSS Feed
V
Visual Studio Blog
Simon Willison's Weblog
Simon Willison's Weblog
G
Google Developers Blog
T
The Exploit Database - CXSecurity.com
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
WordPress大学
WordPress大学
W
WeLiveSecurity
I
InfoQ
The Hacker News
The Hacker News
雷峰网
雷峰网
月光博客
月光博客
P
Privacy & Cybersecurity Law Blog
O
OpenAI News
Hacker News: Ask HN
Hacker News: Ask HN
T
Threat Research - Cisco Blogs
GbyAI
GbyAI
The Last Watchdog
The Last Watchdog
P
Privacy International News Feed
Cyberwarzone
Cyberwarzone
S
SegmentFault 最新的问题
L
Lohrmann on Cybersecurity
人人都是产品经理
人人都是产品经理
V
V2EX
V
Vulnerabilities – Threatpost
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
C
Cybersecurity and Infrastructure Security Agency CISA
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
T
Troy Hunt's Blog
Application and Cybersecurity Blog
Application and Cybersecurity Blog
阮一峰的网络日志
阮一峰的网络日志
SecWiki News
SecWiki News
Microsoft Azure Blog
Microsoft Azure Blog

Casear的技术栈

内网异机备份 conf 驱动 Razer_GRUB_Theme Fcitx5 输入法配置:切换中文输入法 服务器 zsh 环境配置记录:Zim + p10k + eza + zoxide # ThinkPad T490s Linux 指纹模块启用指南(KDE vanblog使用picgo图床的完整部署教程 vanblog备份恢复评论数据 如何配置一个虚拟显示器,以便远程没有显示器的系统 解决 OpenConnect VPN 由于 JScript 引擎丢失导致的 Error 1 修复 Fuck 2025 ATT&CK红队评估实战靶场二 一言 解决kde环境下切换登陆屏幕(SDDM)后显示异常 rss Linux实用软件分享 Kubuntu 上安装 显卡驱动 和 EnvyControl kubuntu 搜狗输入法安装问题解决 终端工具的选择 chatlog 青龙面板+wxBotWebhook实现自动推送天气 mac 安装 第三方应用问题 zsh 安装与配置,使用 oh-my-zsh 美化终端 pve虚拟机硬盘直通 tldr-pages 安装 pve安装Arch-linux Arch-linux安装桌面环境 提问的艺术极简板 Waline 服务端独立部署解决方案 记-先锋书店 api开发-更优雅的[规范响应数据] sqli 1-7关 Nginx Proxy Manager安装及避坑指南 Xiaomi-Mall-Home kali设置为中文 vscode连接docker查看代码 DVWA--SQL Injection(Blind)(盲注Python脚本) 使用Hexo生成大量页面时卡死问题解决 在Ubuntu上搭建Fivem服务器 NEZHA监控面板美化 哪吒监控配置 CentOS7安装MySQL8.0 burpsuite ca证书安装 powerShell script 你一句春不晚,我就到了真江南 DVWA靶场--XSS(Reflected)教程 DVWA靶场--JavaScript Attacks (前端攻击) 强网杯2023 谍影重重2.0 wp shell脚本备份 MySQL数据库 青龙面板定时规则 异地容灾备份系统两地三中心 转载 关于躺平 python打包可执行文件 python定义函数 MySQL8.0以上PHP连接问题
互联网档案计划(Internet Archive)
casearx@foxm · 2024-05-19 · via Casear的技术栈

请注意,本文编写于 870 天前,最后修改于 755 天前,其中某些信息可能已经过时。

介绍一下这个非常非常重要和有用的"互联网档案计划"。

就像它的名字一样,这个计划的目的就是为互联网保存一份档案。在它的网站上,它这样介绍自己:

Most societies place importance on preserving artifacts of their culture and heritage. Without such artifacts, civilization has no memory and no mechanism to learn from its successes and failures. Our culture now produces more and more artifacts in digital form. The Archive's mission is to help preserve those artifacts and create an Internet library for researchers, historians, and scholars. The Archive collaborates with institutions including the Library of Congress and the Smithsonian.

大多数社会都非常重视保护文化遗存。如果没有这些遗存,那么人类就将失去记忆,无法从过去的经历获得启示。如今,越来越多的文化遗存以数字格式出现。"互联网档案计划"的使命就是保护这些数字遗存,为人类创造一个互联网图书馆。我们的合作单位包括国会图书馆和史密森学会。

都说互联网是有记忆的,弥补人类记忆的短暂。

你有没有想过,很多年前你曾浏览过的网站或某个网页,如今,即使那个网站已经倒闭,页面已经删除,或者,你访问某个网页,页面上显示一个大大的404 --- 因为某种原因页面已经被管理员删除了。

现在,凭着你的记忆,你还可以将它回来,继续浏览。

archive.org 就是这样的一家机构,靠捐款在运营的一家公益组织。

image.png

他们在首页上这样介绍自己:

Internet Archive is a non-profit library of millions of free books, movies, software, music, websites, and more. Internet档案馆是一个非营利性图书馆,包含数百万本免费书籍,电影,软件,音乐,网站等。

保存网站只是他们是他们的功能的一部分。 你可以上找面找到无数在中文互联网上已经失传的书籍,短片 ,论文资料。甚至应用程序

这个服务,很酷的是,到目前为止,它已经保存了8630 亿个网页(截止2024年1月)

在保存内容有:

  • 8630 亿个网页
  • 4100 万册书籍
  • 文本1470万 录音(包括240,000场现场音乐会)
  • 840 万个视频(包括 240 万个电视新闻节目)
  • 440 万张图像
  • 890,000 个软件程序

主要特色是其能够以多个时间点快照的方式保存网页。你可以在不同时间点查看特定网页的旧版本,了解在过去某一时刻该网页的内容和布局。时光机:用户可以输入一个网址,然后选择特定日期,以查看在那一天的网页样貌。网页保存:互联网档案馆定期抓取互联网上的网页,将其存档以备将来查看。多媒体资源:除了网页,互联网档案馆还保存了许多其他类型的数字内容,如音频、视频、图像等。文献馆藏:互联网档案馆包含了数百万份数字化的书籍、期刊、音乐和影片等文献。研究资源:研究人员可以使用互联网档案馆的内容进行学术研究,了解互联网发展的历史,也可以访问以前的网络内容以进行比较研究。免费访问:大部分互联网档案馆的内容都是免费提供的,任何人都可以访问。

目前,"互联网档案计划"分为六大部分:

一、电子书

网址:http://www.archive.org/details/texts

这个部分,我以前已经介绍过了,它专门收集公共领域的书籍和文档,任何人都可以免费下载。截至到今天,共有29万多种材料,堪称互联网上最好的公共领域图书搜索引擎。

它主要收集英语书籍,但也包括少部分其他语种的书籍,比如朱熹的《论语集注》。

二、网页

网址:http://www.archive.org/web/web.php

这个部分有个专门的名字,叫做"时光倒流机器"(Wayback Machine),它像收集旧报纸那样收集旧网页。举例来说,Yahoo!的首页就有5000多份档案,最早的可以回溯到1996年10月17日,最近的则是2007年8月30日。

要将全世界的网页都保存下来,这需要多大的存储容量啊?根据2006年的统计,当时Wayback Machine的存储容量有2000T,然后还在以每月20T的速度增加。

三、视频

网址:http://www.archive.org/details/movies

这个部分收集视频材料,你在其中可以找到动画片和电影。我感觉内容还不算很丰富,不过在其中经常可以找到有趣的内容,比如《如果抵御僵尸的袭击?》和1951年的好莱坞喜剧片《皇家婚礼》。

四、音频

网址:http://www.archive.org/details/audio

音频材料主要是有声书籍和音乐。比如,你可以免费下载世界名著《简爱》的MP3,以及巴赫的《 C小調第4奏鸣曲》等等。

五、软件

网址:http://www.archive.org/details/software

软件也是人类文化的一部分,保存旧软件同保存旧书一样,都是很有意义的。我在上面发现了Photoshop 6.0的DEMO版和Winamp 5.0。

六、教育材料

网址:http://www.archive.org/details/arsdigita

这部分主要是美国大学课程,有视频和文字材料下载,相当于不去北美就可以上那里的课,比如麻省理工学院的《微分方程》和Naropa大学的《艾伦·金斯堡的诗歌》。