필사 모드: インターネットアーカイブ & デジタル保存 & ウェブアーカイビング 2026 — Wayback Machine / archive.today / Conifer / Browsertrix / WARC / Perma.cc / NDL WARP / OASIS 徹底ガイド
日本語> "Universal access to all knowledge — すべての人類にすべての知識を。それが難しいなら、せめて消える前にコピーを1部残そう。" — Brewster Kahle、Internet Archive創立者、2019 TED Talk
ウェブの平均寿命は驚くほど短い。Harvard Law School が 2014 年に行った研究では、米国連邦最高裁判決が引用した外部 URL の約 49% が 5 年以内に切れていたと報告されました。2024 年の Pew Research の追跡研究は、2013 年に作成されたページの約 38% が 2023 年時点ですでに消えていたことを示しています。これを **linkrot(リンク腐敗)** と呼びます。我々が日々引用・共有しているウェブが、実は毎年数パーセントずつ永久に失われ続けているという意味です。
2026 年 5 月現在、この linkrot に立ち向かうデジタル保存エコシステムはかつてないほど豊かです。Brewster Kahle が 1996 年に作った **Internet Archive** とその中の **Wayback Machine** は 935B+ ページを保存し、事実上のグローバルバックアップとして機能しています。**archive.today (archive.ph)** は匿名・即時アーカイブとしてジャーナリストの必須ツールになりました。一方で Webrecorder 陣営(**Conifer**、**Browsertrix Crawler**、**Browsertrix Cloud**、**Replay.web.page**)は、単純なスナップショットではなく **ユーザーのインタラクションを含む高忠実度(High-fidelity)アーカイブ** という新しいアプローチを牽引しています。**Hachette v. Internet Archive 2024 判決** は IA の図書館的デジタル貸出(CDL)モデルに大きな打撃を与えると同時に、デジタル保存の法的位置を再定義する契機となりました。
この記事では 2026 年 5 月時点のデジタル保存・ウェブアーカイビングのエコシステムを、グローバル非営利 / 匿名 / Webrecorder / 政府 / 学術 / セルフホスティングの 6 軸で整理し、WARC・WACZ といったフォーマット、Heritrix・Pywb といったインフラ、Perma.cc・Permanent.org といった新しい試み、韓国・日本の政府アーカイブ、そして linkrot 時代を生きる個人・研究者・図書館の実践戦略まで一気にカバーします。
1. 2026 年デジタル保存マップ — グローバル / 政府 / セルフホスティング / 学術の 4 分類
デジタル保存ツールを俯瞰するには、次の 4 つの大きな分類が便利です。
| 分類 | 代表プロジェクト | 運営主体 | 主なユーザー |
|---|---|---|---|
| グローバル非営利 | Internet Archive (Wayback Machine)、archive.today、Common Crawl | 非営利 / 匿名 | 全員 |
| Webrecorder 陣営 | Conifer、Browsertrix Crawler、Browsertrix Cloud、Replay.web.page | Webrecorder Software (Ilya Kreymer) | ジャーナリスト / 研究者 / キュレーター |
| 政府 / 国立図書館 | Library of Congress Web Archives (LCWA)、国立国会図書館 WARP、韓国国立中央図書館 OASIS、UK Web Archive | 各国国立図書館 | 政府 / 研究者 |
| 学術 / 法律 | Perma.cc (Harvard Law)、Permanent.org | 非営利財団 | 弁護士 / 学術引用 / 個人 |
| セルフホスティング | ArchiveBox、SingleFile、Pywb、Wallabag | オープンソース | 開発者 / 図書館 IT |
| 標準 / インフラ | WARC (ISO 28500)、WACZ、Heritrix、Pywb | IIPC / Webrecorder | インフラ運用者 |
この分類は単純なカテゴライズではなく、**誰が保存し、誰が費用を払い、誰がアクセスするか** というガバナンスの違いを反映しています。Internet Archive は寄付と図書館会費で運営される米国非営利、archive.today は匿名運営者が寄付で回しているサイト、国立図書館は税金で運営され法的権限(legal deposit、納本制度)を持ち、Perma.cc は Harvard Law School が主導する学術コンソーシアム、ArchiveBox は誰でも自分のサーバーで動かせるオープンソースです。
2026 年の核心的な問いは「どこか一つに任せられるか」ではなく **「複数の場所にコピーを分散させるべき」** という LOCKSS(Lots Of Copies Keep Stuff Safe)原則に収束しています。Hachette 判決以降、IA の将来が不確実になり、単一障害点(SPOF)を避けた多重保存戦略の重要性がさらに増しました。
2. Internet Archive — Brewster Kahle、1996 年創立
**Internet Archive** は 1996 年 5 月、Brewster Kahle がサンフランシスコに設立した非営利デジタル図書館です。Kahle は Thinking Machines 出身のエンジニアで、1989 年に WAIS(Wide Area Information Servers)を作り、Alexa Internet を創業して 1999 年に Amazon に約 2 億 5 千万ドルで売却した後、その資金の一部で Internet Archive を本格稼働させました。
2026 年 5 月現在、Internet Archive の規模は次の通りです。
- **総データ: 約 866PB+** (ペタバイト) — 単一非営利が運営するデジタルアーカイブとしては世界最大
- **Wayback Machine: 935B+ ページ** (9,350 億ページ)
- **書籍: 4,200 万冊デジタル化** (Open Library 含む)
- **音声: 2,000 万件** (Live Music Archive、Grateful Dead コレクション等を含む)
- **映像: 1,000 万件** (TV ニュースアーカイブ、映画、学術講演)
- **ソフトウェア: 100 万+ 項目** (DOS、Mac OS Classic、ゲーム ROM、MAME エミュレーション、ブラウザで即時実行可)
- **画像: 500 万+ 件**
Internet Archive は 5 つのデータセンター(サンフランシスコ本部、Richmond、Petaluma、Vancouver、Amsterdam)にデータを分散保存し、すべてのコレクションをペタバイト級のデジタル保存ストレージに多重複製しています。自社開発の Petabox ストレージノードと、オープンソースの Hadoop・Solr・Elasticsearch ベースの検索インデックスを運用しています。
年間運営費は約 3,500 万 ~ 4,000 万ドルで、90% 以上が個人寄付と図書館・アーカイブパートナーの会費から来ています。Kahle は IA を「デジタルアレクサンドリア図書館」と呼び、すべてのデータを無料公開することをミッションとしています。
archive.org でよく使われる入り口は次の 5 つです。
- **web.archive.org** — Wayback Machine、ウェブページスナップショット
- **archive.org/details/** — コレクション・アイテム詳細
- **openlibrary.org** — Open Library、図書カタログ・貸出
- **scholar.archive.org** — 学術資料検索
- **archive.org/details/software** — ソフトウェア・ゲーム(ブラウザ内エミュレーター実行可能)
3. Wayback Machine — 935B+ ページのタイムマシン
**Wayback Machine** は Internet Archive 内の **ウェブページスナップショット検索・再現サービス** です。1996 年からクロールを始め、2001 年に一般公開されました。名前はアニメ Peabody and Sherman のタイムマシン「WABAC machine」から取られています。
基本的な使い方はシンプルです。`web.archive.org` で URL を検索すると、その URL が過去のいつキャプチャされたかをカレンダー表示します。各点が 1 回のスナップショットで、クリックするとその時点のページがそのまま再現されます。
内部構造は次のように動いています。
[クローラ Heritrix / Save Page Now]
|
v
[WARC ファイル (~数十 GB / 日)]
|
v
[CDX インデックス — URL + タイムスタンプ + offset]
|
v
[Pywb 再現エンジン] <- ユーザーリクエスト
|
v
[クライアントに再現ページを配信]
URL パターンは非常に一貫していて、覚えておくと便利です。
https://web.archive.org/web/[YYYYMMDDhhmmss]/[元URL]
https://web.archive.org/web/2026*/https://example.com # すべての 2026 年キャプチャ
https://web.archive.org/web/2*/https://example.com # 最新キャプチャ
2026 年 5 月時点の主な特徴は次の通りです。
- **935B+ ページ** — 1996 年以降の累積(2025 年 8 月に 900B を突破)
- **TimeTravel API** — 他アーカイブ(Library of Congress、UK Web Archive など)との連合検索(Memento Protocol、RFC 7089)
- **Save Page Now (SPN)** — ユーザーが直接即時保存(次章)
- **Wayback Machine Chrome 拡張** — 切れたリンクの自動迂回、最寄りスナップショット探索
- **Brozzler** — Heritrix と別に IA が作ったヘッドレス Chrome ベースクローラ(JS-heavy サイト対応)
- **CDX Server API** — インデックスを直接クエリ可能、研究者に人気
研究者がよく使う CDX API の例は次の通りです。
特定ドメインの全キャプチャメタデータ取得
curl "https://web.archive.org/cdx/search/cdx?url=example.com/*&output=json&limit=100"
2020 年以降のキャプチャだけ
curl "https://web.archive.org/cdx/search/cdx?url=example.com&from=20200101&to=20260101&output=json"
4. Hachette v. Internet Archive 2024 — IA への大打撃
2020 年 3 月、COVID-19 で学校・図書館が閉鎖されると、Internet Archive は **National Emergency Library (NEL)** という臨時プログラムを開始しました。通常は図書館的デジタル貸出(Controlled Digital Lending、CDL)で「物理本 1 冊 = デジタル貸出 1 件」の比率を守っていたところを、「在宅で本を借りられない緊急時」を理由に同時貸出制限を一時的に解除しました。
2020 年 6 月、**Hachette Book Group、HarperCollins、John Wiley、Penguin Random House** の四大出版社が IA を著作権侵害で提訴しました(Hachette v. Internet Archive、1:20-cv-04160、S.D.N.Y.)。争点は大きく 2 つでした。
1. **CDL 自体が合法か** — IA は「物理本 1 冊 = デジタル貸出 1 件」比率を守るので first-sale doctrine の範囲内と主張。出版社はデジタル複製自体が新たな権利侵害と主張。
2. **NEL の同時貸出制限解除が fair use か** — IA は非常時の公衆衛生・教育目的を主張。出版社は単なる無断複製と主張。
**2023 年 3 月**、John G. Koeltl 判事が出版社側勝訴のサマリー判決(CDL が fair use ではないと判断)を下しました。**2024 年 9 月 4 日**、米国第 2 巡回控訴裁判所が一審を支持(affirm)し、IA の敗訴が確定しました。
判決の核心ロジックは「IA のデジタル貸出は出版社の e-book 市場と直接競合する(transformative use ではない)」というもので、**約 6 億 2 千万ドル(\$620M)規模の損害賠償が潜在的に算定** されました。両者は 2024 年末に非公開合意で金額を調整しましたが、IA はこの件で次のものを失いました。
- **約 50 万冊のデジタル書籍を貸出カタログから除外** (2023 年末以降)
- **CDL の法的正当性に対する米国での精密打撃** — 他図書館の類似プログラムも萎縮
- **運営資金への直接的圧迫** — IA の年間予算が 4 千万ドル前後なのに対し、和解金はその数倍規模
判決以降、IA は書籍貸出を縮小し、**ウェブアーカイビング・ソフトウェア保存・学術資料** に重心を移しています。別の音楽業界訴訟(UMG v. Internet Archive、"Great 78 Project" 関連)も 2024 年中に進行しており、IA の将来は依然として不透明です。
この事件がデジタル保存コミュニティに残した教訓は明快です。**一つの非営利にすべての保存を委ねることはできない**。LOCKSS 原則、多重バックアップ、政府・学術・匿名など分散したガバナンスの重要性が、これまでになく高まりました。
5. archive.today (archive.ph / archive.is) — 匿名アーカイブ
**archive.today** は匿名の運営者が 2012 年に始めたウェブページスナップショットサービスです。同じサイトが `archive.today`、`archive.ph`、`archive.is`、`archive.li`、`archive.fo` など複数のドメインでミラーされており、運営者は公式には身元を明かしていません(IP はチェコと言われています)。
Internet Archive との最大の違いは次の 3 つです。
1. **DMCA 非協力** — IA は robots.txt と出版社要請に応じますが、archive.today は匿名・海外運営なので事実上すべてのコンテンツを永久保管
2. **JS レンダリング後の静的スナップショット** — ヘッドレスブラウザでページをレンダリングしてから HTML + スクリーンショットを両方保存
3. **即時保存 + 永続短縮 URL** — `archive.ph/abc12` のような 5 ~ 6 文字コードで永続引用
ジャーナリストや OSINT コミュニティでは、archive.today は事実上の標準ツールになりました。ニュースサイトが記事を修正・削除したり、政治家の SNS 投稿が消えたり、ペイウォールコンテンツを引用するときに archive.today URL を添える慣行が定着しています。
使い方は非常にシンプルです。
保存
https://archive.ph/?url=https://example.com/article
または直接入力
https://archive.ph/https://example.com/article
スナップショットページには「元 URL」「キャプチャ時刻」「短縮 URL」「他のスナップショット」リンクが表示され、ページ全体のスクリーンショット PNG と HTML 両方をダウンロードできます。
archive.today の限界は次の通りです。
- **検索インデックスが弱い** — Wayback Machine のような広範な全文検索は困難
- **API なし** — 自動化は事実上スクレイピング頼み
- **運営者単一依存** — 匿名 1 人運営者にすべてのインフラが紐づき SPOF
- **速度が不安定** — トラフィック急増時にキャプチャがキューイングされたり拒否される
それでも「出版社要請に応じないアーカイブ」というポジションは唯一無二で、Wayback Machine とは相互補完関係にあります。
6. Save Page Now — クイックアーカイビング
**Save Page Now (SPN)** は Internet Archive が提供する **ユーザー主導の即時アーカイビング** 機能です。誰でも URL を入力して Wayback Machine に即時キャプチャでき、2019 年発表の v2 では外部リンク・添付ファイル・埋め込みメディアまで一緒にキャプチャするオプションが追加されました。
入り口は 3 通りです。
- **Web UI**: `web.archive.org/save` で URL 入力
- **ブックマークレット**: ブラウザブックマークに JavaScript コードを保存してワンクリックでキャプチャ
- **公式 Chrome / Firefox / Safari 拡張** — 右クリック → "Save Page Now"
大量自動化には **SPN2 API** を使います。キー発行後、POST 一発でキューイングされます。
curl -X POST "https://web.archive.org/save/" \
-H "Authorization: LOW <access_key>:<secret>" \
-d "url=https://example.com/article&capture_all=1"
応答に `job_id` が含まれ、`/save/status/<job_id>` で進行状況をポーリングできます。処理は通常 10 ~ 60 秒、JS レンダリングが重いページは 2 ~ 3 分かかります。
ジャーナリストがよく使うパターンは「記事を引用する前に SPN でキャプチャした後、本文に元 URL と web.archive.org URL を併記」する方法です。こうすれば元が修正・削除されても引用の整合性が保たれます。
2023 年以降 **Save Page Now → Wayback Machine インデックス反映時間が平均 5 分以内** に縮まったので、「記事を見て 5 分以内にキャプチャ + ツイート」が十分に可能です。
7. Conifer(旧 Webrecorder) — インタラクティブアーカイブ
**Conifer** は Webrecorder.io が 2020 年に改名したサービスで、ユーザーがブラウザで直接サイトを巡回しながら、そのインタラクションをそのまま録画してアーカイブするツールです。作者は Ilya Kreymer で、Internet Archive で Pywb を開発した後、Rhizome(ニューヨークのデジタルアート保存非営利)を経て Webrecorder Software を分社・創立しました。
従来のクローラーベースのアーカイビングには次のような限界がありました。
- ログイン後のコンテンツキャプチャが困難
- JS-heavy な SPA、無限スクロール、動的ロードコンテンツの一部しかキャプチャできない
- ユーザーがクリックしないと表示されないモーダル・ドロップダウン未キャプチャ
- ペイウォール・サブスクコンテンツのキャプチャ不可
Conifer はこれを **「人がブラウザで直接巡回し、そのトラフィックをすべて WARC に録音する」** 方式で解決しました。動作フローは次の通りです。
1. conifer.rhizome.org に登録 → 新しいコレクション作成
2. コレクション内で "Start Recording" クリック → 新タブにプロキシされたブラウザが開く
3. 普段通り巡回 — ログイン、スクロール、クリック、モーダルを開く
4. すべてのネットワークトラフィックが裏で WARC ファイルに保存される
5. 録画終了 → コレクションに永久保管、いつでも再生(replay)可能
Conifer は無料 5GB、有料プランは 100GB 以上まで拡張できます。デジタルアート、インタラクティブフィクション、インタラクティブデータビジュアライゼーションのような「コードとインタラクション自体が作品」となる保存対象に特に有効です。ニューヨーク近代美術館(MoMA)、Rhizome ArtBase、英国 British Library がデジタルアート作品の保存に Conifer を使っています。
限界も明白です。**人が 1 つ 1 つクリックしないといけないためスケールしない**。10 ページのニュースサイトは可能ですが、10,000 ページの Wiki は不可能です。この限界を解消するために作られたのが次章の Browsertrix です。
8. Browsertrix Crawler + Browsertrix Cloud — 自動化された高忠実度クロール
Webrecorder 陣営の 2 つ目のツールは **Browsertrix** です。Conifer の「人が直接クリックする」方式を Playwright ベースのヘッドレスブラウザで自動化したクローラです。
| 製品 | 形態 | ライセンス |
|---|---|---|
| Browsertrix Crawler | Docker イメージで配布される CLI | AGPL-3.0 |
| Browsertrix Cloud | Browsertrix Crawler を SaaS で提供 | 有料 / 非営利無料枠 |
Browsertrix Crawler は次のように実行します。
docker run -v $PWD/crawls:/crawls \
-it webrecorder/browsertrix-crawler crawl \
--url https://example.com \
--scopeType domain \
--depth 3 \
--behaviors autoscroll,autoplay,autofetch,siteSpecific \
--generateWACZ \
--collection my-crawl
主なパラメータは次の通りです。
- `--url` — 開始 URL(複数指定可)
- `--scopeType` — `page`、`prefix`、`host`、`domain`、`any` から選択、どこまでリンクをたどるかを決定
- `--depth` — リンクを何段までたどるか
- `--behaviors` — サイト別動作シミュレーション(自動スクロール、自動再生、無限スクロール処理など)
- `--generateWACZ` — 結果を WACZ パッケージにまとめる
- `--profile` — 事前に作ったブラウザプロファイル(ログイン Cookie 含む)を適用
`--behaviors` こそが Browsertrix の真の差別化要因です。Twitter/X、YouTube、Instagram、Facebook、Medium といった主要サイトごとに「Twitter は最後までスクロールしないとタイムラインが全部ロードされない」「YouTube は自動再生を有効にしないと映像内容がキャプチャされない」といったサイト別ヒューリスティックがライブラリとして組み込まれています。
**Browsertrix Cloud** はこのクローラを SaaS として提供します。2024 年のベータを経て 2025 年に正式リリースされ、2026 年 5 月時点で次の機関が利用中です。
- **Stanford Libraries** — 英文学・芸術のデジタルコレクション
- **The New York Times R&D** — ニュース記事の自社保存
- **Internet Archive** — 一部のキュレーションコレクション
- **Bibliothèque nationale de France** — フランス文化遺産ウェブサイト
料金は非営利・教育の無料枠と、GB・クロール時間ベースの有料枠があり、出力は常に WACZ でダウンロード可能なので vendor lock-in がありません。
9. Replay.web.page + WACZ — 新フォーマットの台頭
Webrecorder 陣営の 3 つ目の柱は **WACZ フォーマット** と **Replay.web.page** です。
**WACZ (Web Archive Collection Zipped)** は 2021 年に Webrecorder が提案したフォーマットで、事実上「WARC ファイルを ZIP に詰め、インデックスとメタデータを足したもの」です。構造は次のようになっています。
my-collection.wacz (ZIP コンテナ)
|-- archive/
| |-- data-001.warc.gz
| |-- data-002.warc.gz
|-- indexes/
| |-- index.cdx.gz # CDXJ インデックス
| |-- index.idx # 補助インデックス
|-- pages/
| |-- pages.jsonl # ページリスト・メタデータ
|-- metadata.yaml # コレクションメタデータ
|-- datapackage.json # Frictionless Data Package 標準
|-- datapackage-digest.json # SHA-256 ハッシュ
WARC (.warc.gz) は HTTP リクエスト / レスポンスのシーケンスだけを格納する低レベルフォーマットですが、WACZ はその上に **メタデータ・署名・ページリスト・インデックス** を標準化して、単一ファイルで配布・検証できるパッケージフォーマットになります。WACZ には **detached cryptographic signature** が含まれるため、改竄の有無も検証できます。
WACZ が真価を発揮するのは **Replay.web.page** というクライアントサイドの再生器と組み合わせた瞬間です。
この Web Component 一つをページに埋め込むだけで、WACZ ファイルをサーバーから直接ダウンロードしてブラウザ内で即再現できます。**サーバー側の再現エンジン(Pywb 等)が不要** です。静的ホスティング(GitHub Pages、Netlify、Cloudflare Pages、S3)に WACZ を置けば、永続アーカイブになります。
このモデルが強いのは次のシナリオです。
- 博物館・図書館がデジタルコレクションを永続的に公開(サーバー費用なし)
- ジャーナリストが記事本文に WACZ を embed してペイウォールページを永久保存
- 学術論文が引用ウェブページの WACZ を supplemental material として添付
- 個人ブロガーが自分の記事で引用した外部ページの WACZ を一緒にホスト
2025 年時点で WACZ は IIPC(International Internet Preservation Consortium)傘下のワーキンググループで標準化作業が進められており、2026 年 5 月時点で spec 1.1.1 が安定版です。
10. WARC (ISO 28500) + Heritrix + Pywb — インフラ三銃士
WACZ が新しいパッケージフォーマットだとすれば、**WARC** はすべてのウェブアーカイビングの低レベル標準です。
**WARC (Web ARChive)** は 2009 年に ISO 28500 として標準化されたコンテナフォーマットです。ARC(Internet Archive が 1996 年から使ってきた自社フォーマット)の後継で、1 ファイルに複数の HTTP リクエスト / レスポンスを順に格納します。2017 年に ISO 28500:2017 として改訂され、2026 年現在も ISO 28500:2017 が有効です。
WARC ファイルの 1 レコードは次のような形をしています。
WARC/1.1
WARC-Type: response
WARC-Record-ID: urn-uuid-abc-123
WARC-Date: 2026-05-16T10:00:00Z
WARC-Target-URI: https://example.com/page
Content-Type: application/http; msgtype=response
Content-Length: 12345
HTTP/1.1 200 OK
Content-Type: text/html
<!doctype html>...
レコードタイプは `response`(実際の応答)、`request`(リクエスト)、`warcinfo`(ファイルメタ)、`metadata`(補助メタ)、`revisit`(重複回避参照)などがあります。1 つの WARC ファイルは一般に 1GB 程度で区切って新ファイルを始めます。
**Heritrix** は Internet Archive が 2003 年から開発している **Java ベースの大規模分散クローラ** です。WARC 標準の事実上の参照実装であり、IA 自身だけでなく米国議会図書館、英国 British Library、アイスランド国立大学図書館など、ほぼすべての国立図書館級ウェブアーカイビングが Heritrix を使っています。2026 年 5 月時点で安定版は 3.4.0、Apache License 2.0 です。
Heritrix の強みは **数十億ページ規模のクロール安定性** です。robots.txt 遵守、ドメインごとの politeness 遅延、分散多重インスタンス、ディスクキャッシュ、URL 正規化、重複回避 — これらすべてが検証された運用環境で動作します。弱点は JS レンダリングができない点で、そのため IA は Heritrix とは別に Brozzler(Headless Chromium ベース)を運用しています。
**Pywb (Python Wayback)** は Webrecorder の Ilya Kreymer が IA 時代に作ってオープンソース公開した **WARC 再現エンジン** です。Python で書かれており、IA 自身の Wayback エンジンとは別に、誰でも自分のサーバーで Wayback Machine を動かせるようにします。Conifer、Browsertrix Cloud、米国議会図書館の一部コレクション、そして数多くの大学図書館が Pywb を使っています。
Pywb で自分の Wayback を立ち上げるのは非常にシンプルです。
pip install pywb
wb-manager init my-archive
wb-manager add my-archive ./my-crawl.warc.gz
wayback --port 8080
ブラウザで http://localhost:8080/my-archive/2026*/https://example.com
この 3 つのツール(WARC + Heritrix + Pywb)がデジタル保存インフラの事実上の標準スタックです。
11. Perma.cc — Harvard Law の引用リンク永続化
**Perma.cc** は Harvard Law School Library が 2013 年に始めた学術・法律向けの永続リンクサービスです。動機はシンプルです。「法学論文で引用された URL の 70% 以上が切れる」という自前の調査結果がきっかけでした。
仕組みは次の通りです。
1. 登録ユーザー(主に弁護士・法学者・ジャーナル編集者)が URL を入力
2. Perma.cc がそのページを **HTML + PNG スクリーンショット** の両方でキャプチャ
3. `perma.cc/ABC1-DEF2` 形式の永続短縮 URL を発行
4. 論文・判決文には元 URL と perma.cc URL を併記
肝はガバナンスです。Perma.cc は **160 以上の法学図書館コンソーシアム(Perma.cc Registrars)** が運営し、キャプチャはコンソーシアムの分散ストレージに保存されます。Harvard 一箇所が破綻しても、他の図書館がデータを引き継げる構造です。
料金体系は次のようになっています。
- **Public users**: 月 10 件無料
- **Faculty / Registrars**: 無制限無料(所属図書館が会費を払う)
- **Subscriber organizations**: 有料プラン
米国法曹界で Perma.cc は事実上の標準引用ツールになりました。The Bluebook(米国法律引用ガイド)第 20 版以降、perma.cc URL が「URL が消える可能性があるときに推奨される安定引用形式」として明記され、2024 年時点で米国連邦最高裁判所意見書の多数が perma.cc リンクを本文に直接含めています。
Perma.cc 自体も WARC をバックエンドとして使い、コレクションごと WARC で export できます。つまり **ユーザーには永続短縮 URL を提供しつつ、内部では標準 WARC で保存** — 標準と使いやすさを両立した模範事例です。
12. Permanent.org — 個人デジタル遺産の保存
**Permanent.org** は 2017 年に設立された非営利デジタル遺産保管サービスです。個人が自分の写真・文書・映像を一生、そしてその後まで保管できるよう設計されています。Internet Archive 出身のエンジニア数名が参加し、IA のインフラノウハウの一部を共有しています。
Permanent.org の差別点は次の通りです。
- **One-time payment** — 月額サブスクではなく一回払いで永続保存(モデル: 100GB \$10、1TB \$50 程度)
- **Beneficiary system** — 死亡時に指定の受領者へ自動相続
- **Open content option** — ユーザーが望めばコレクションを公開共有可能
- **Migration guarantee** — フォーマット変換・メディア入れ替え費用を会費に含む
非営利モデルの核心仮説は「月額サブスクが切れると資料が消えるクラウドストレージ(Google Drive、iCloud、Dropbox)と違い、一回の料金を受け取り、そのお金を endowment(基金)で運用して 100 年以上運営する」というものです。実際 Permanent.org は資金の約 70% を endowment で運用し、30% を現在の運営費に充てています。
家族写真の数十 GB が Apple、Google、Dropbox の間を移り住んでいるうちにいつの間にか消えていた経験は誰しも一度はあるはずです。Permanent.org はこの問題を非営利・一回払い・法的相続という 3 軸で解決しようとする試みです。
2026 年現在、加入者は約 1 万人、保管データは約 200TB と小規模ですが、モデル自体がデジタル遺産分野の重要な実験として評価されています。
13. ArchiveBox + SingleFile — セルフホスティングの台頭
自分のマシンに直接アーカイブインフラを立てたいなら、**ArchiveBox** が事実上の標準です。Nick Sweeting が 2017 年に始めた Python ベースのオープンソースで、「ブックマークマネージャ + Wayback Machine + 永続保管」をセルフホスティングで提供します。
特徴は次の通りです。
- **多バックエンド** — 1 つの URL を追加すると同時に WARC、HTML、PDF、PNG スクリーンショット、YouTube-DL(映像)、Git clone、記事本文(Readability)など 7 ~ 10 のフォーマットで保存
- **CLI + Web UI** — `archivebox add <url>` 一行で追加、Web UI で検索
- **JSON + SQLite** — メタデータを標準フォーマットで保管、他ツールへ export しやすい
- **Docker / Docker Compose 対応** — `docker run -v ./data:/data archivebox/archivebox`
インストールと初使用は次のように簡単です。
Docker 方式
docker run -v $PWD/data:/data -it archivebox/archivebox init --setup
URL 追加
docker run -v $PWD/data:/data archivebox/archivebox add 'https://example.com/article'
Web UI 起動
docker run -v $PWD/data:/data -p 8000:8000 archivebox/archivebox server 0.0.0.0:8000
ArchiveBox の強みは **フォーマット多重性** です。WARC だけでは再現エンジンが必要ですが、PDF・PNG・HTML のように多様なフォーマットで同時保存すれば、どんな未来でも少なくとも一つの形式は読めます。デジタル保存コミュニティの "format diversity" 原則を最も忠実に実装したツールです。
**SingleFile** は Gildas Lormeau が作った Chrome / Firefox 拡張で、**現在ブラウザに表示されているページを単一の HTML ファイルとして丸ごと保存** します。画像・CSS・フォント・JS をすべてインラインで埋め込んで、依存のない self-contained な HTML 一枚にします。
CLI 版もあり
npm install -g single-file-cli
single-file https://example.com output.html
ArchiveBox は内部で SingleFile をバックエンドの一つとして使っています。個人が「このページを保存しておきたい」と思ったときは、SingleFile 拡張のワンクリックが最も軽い手段です。
代替として **Wallabag**(RSS・読み返しキュー寄り)、**Hypothesis**(注釈寄り)、**Zotero**(学術引用寄り)などがあり、それぞれ強みは違いますが、**WARC + Markdown export** を兼ね備えているのは ArchiveBox くらいです。
14. 韓国 — 国立中央図書館 OASIS、KEPRI デジタルアーカイブ、韓国学中央研究院
韓国のウェブアーカイビングは国立中央図書館(NLK)が主導しています。
**国立中央図書館 OASIS (Online Archiving and Searching Internet Sources)** は 2003 年に開始された韓国政府の公式ウェブアーカイビングプログラムです。ドメインは `oasis.nl.go.kr` で、2026 年 5 月時点での収集資料は次の通りです。
- **累積収集ウェブサイト: 約 3,200 万件**
- **年間新規収集: 約 200 万件**
- **保存容量: 約 2PB**
- **主な収集対象**: 政府・公共機関サイト、学術資料、時事・文化サイト、選挙・災害などイベントベースの特別収集
OASIS は 2010 年改正の図書館法(現行図書館法第 20 条および施行令)により、**オンライン資料納本制度** の根拠を持ちます。韓国で出版されたデジタル資料は国立中央図書館に納本する義務があり、ウェブサイトは同意ベースと自主収集ベースが併用されます。
OASIS でよく使われる入り口は次の通りです。
- `oasis.nl.go.kr/search` — キーワード検索
- `oasis.nl.go.kr/wayback/YYYYMMDDhhmmss/元URL` — Wayback スタイルの時点再現
- 学術用一括ダウンロードは別途申請後に提供
**KEPRI(韓国電力公社電力研究院)デジタルアーカイブ** は電力産業・技術分野の図面・研究報告書・標準を保存する分野特化アーカイブです。一般公開よりも産業・学術協力チャネル経由でアクセスします。
**韓国学中央研究院 (Academy of Korean Studies)** はデジタル韓国学資料を集めた **韓国学資料センター (kostma.korea.ac.kr)** と韓国学資料ポータルを運営しています。古文書、族譜、地方誌(邑誌)、植民地時代の新聞といった韓国学一次資料をデジタル化して無料公開しています。独自の IIIF ビューアを備えており、古文書のページ単位で zoom と annotation が可能です。
分野別の韓国アーカイブ入り口をまとめると次のようになります。
| 分野 | 機関 | URL |
|---|---|---|
| 一般ウェブ | 国立中央図書館 | oasis.nl.go.kr |
| 韓国学一次資料 | 韓国学中央研究院 | kostma.korea.ac.kr |
| 国家記録 | 国家記録院 | archives.go.kr |
| 学術論文 | KISTI、RISS、KCI | kiss.kstudy.com、riss.kr、kci.go.kr |
| 新聞・ニュース | BIGKinds(韓国言論振興財団) | bigkinds.or.kr |
| 映像・放送 | 韓国映像資料院、KBS アーカイブ | koreafilm.or.kr |
| 電力・技術 | KEPRI デジタルアーカイブ | kepri.re.kr |
OASIS は Wayback Machine の 935B ページに比べれば小規模ですが、**韓国ドメイン(.kr)コンテンツの保存を政府単位で責任を持つ** という点で意義は大きい。IA がグローバルバックアップなら、OASIS は韓国文化遺産の一次責任者です。
15. 日本 — 国立国会図書館 NDL + WARP
日本の公式ウェブアーカイビングは **国立国会図書館 (NDL)** の **WARP (Web Archiving Project)** が担っています。
WARP は 2002 年に試行事業として始まり、2010 年の国立国会図書館法改正で法的権限を得ました。2026 年 5 月時点の規模は次の通りです。
- **累積収集 URL: 約 27 億件**
- **保存容量: 約 1.5PB**
- **収集対象**: 日本の政府・地方自治体サイト(悉皆収集)、公益法人、学術サイト、時事サイト(選別収集)
WARP の特徴は **政府・地方自治体サイトを同意なしに悉皆収集** する点です。日本の国立国会図書館法第 25 条の 3 は政府機関のインターネット資料を NDL が収集・保存できると定め、民間サイトはサイト運営者の同意を得るオプトインモデルです。
入り口は次の通りです。
- `warp.da.ndl.go.jp/search/` — キーワード検索
- `warp.da.ndl.go.jp/info:ndljp/pid/ID` — 永続識別子(NDL Persistent ID)
- `warp.da.ndl.go.jp/waybackmachine/YYYYMMDDhhmmss/URL` — Wayback スタイル
WARP の興味深い点は **収集頻度がサイト種別ごとに異なる** ことです。中央省庁は月 1 ~ 2 回、地方自治体は四半期 1 回、学術機関は半年 1 回、そして選挙・災害などのイベントが発生すると臨時で日次の集中収集が有効化されます。2011 年の東日本大震災直後、NDL は約 1 万のサイトを緊急収集モードに切り替えた事例があります。
NDL はまた **デジタルコレクション** という日本の出版物(図書、雑誌、博士論文、音源、映像)のデジタル化プロジェクトを運営しています。誰でもインターネットで無料閲覧できる資料は約 60 万件あり、図書館送信サービスでさらに 200 万件が利用可能です。
日本にはまた **国立公文書館 (NAA)** が政府公文書をデジタル化して公開し、**国会会議録検索システム** が 1947 年以降の国会議事録を全文検索できるようにしています。NDL + NAA + 国会会議録の 3 軸が日本のデジタル記録保存の柱です。
16. linkrot 危機 — 我々はどう対応するか
冒頭で触れた linkrot 現象は、学術・ジャーナリズム・政府の各分野で深刻に認識されています。2024 年の Pew Research は次の統計を報告しました。
- **2013 年に作成されたウェブページの 38% が 2023 年に消失**
- **Wikipedia の外部引用リンクの 11% が切れている(2024 年時点)**
- **米国政府サイトの 21% がドメイン移行やリニューアルで旧 URL 切れ(2020-2024)**
- **ソーシャルメディア投稿の 50% 以上が 5 年以内に非公開・削除または消失**
linkrot の原因は次のように分類できます。
1. **DNS・サーバ停止** — 企業倒産、ホスティング期限切れ
2. **URL 構造変更** — CMS マイグレーション、サイトリニューアル
3. **ポリシーによる削除** — 著作権、名誉毀損、GDPR の忘れられる権利
4. **ソーシャルメディアアカウント閉鎖** — ユーザー本人による削除、プラットフォーム側の停止
5. **有料化** — ペイウォール導入で事実上公開だった資料が非公開に
対応戦略は、保存する側(Producer)と引用する側(Citer)に分かれます。
**保存する側 (Producer)**
- **標準フォーマットの使用** — WARC + WACZ
- **複数の場所に分散バックアップ** — IA、archive.today、Perma.cc、自前 ArchiveBox
- **法的・契約的保証の確保** — ライセンス明示、図書館協定
- **フォーマット移行計画** — 10 年単位でフォーマット点検・移行
**引用する側 (Citer)**
- **引用時点で即時キャプチャ** — Save Page Now、archive.today を併用
- **2 種類以上の短縮 URL を併記** — 元 URL + perma.cc + web.archive.org
- **本文または重要部分の抜粋を含める** — URL がすべて切れても本文から引用意味が復元可能
- **ローカル PDF バックアップ** — 自身のマシン・NAS にコピー保管
特に学術誌・報道機関では **「引用 URL はすべて事前にアーカイブしておく」** が新たな標準になりつつあります。The New York Times、The Atlantic、ProPublica、日本の NHK、韓国のハンギョレ・京郷新聞などが、それぞれ独自の引用リンク保存ポリシーを導入しています。
17. デジタル保存に関心を持つべきは誰か — 図書館 / ジャーナリスト / 研究者 / 市民
デジタル保存は図書館員・アーキビストだけの仕事ではありません。2026 年にはほぼすべての情報労働者が、自分の分野の保存責任を一部分担します。
**図書館員 / アーキビスト**
- WARC + Pywb で自前のコレクションを運用
- Browsertrix Cloud や Conifer をキュレーションツールとして活用
- Perma.cc コンソーシアム加入(学術図書館)
- LOCKSS 原則に従い他図書館と連携
**ジャーナリスト**
- 記事発行前にすべての外部 URL を archive.today / Save Page Now でキャプチャ
- 政治家の SNS 投稿、企業の開示など、変更・削除リスクのある資料は 2 種類以上のアーカイブに
- WACZ を活用して自社メディアアーカイブを構築(NYT R&D、ProPublica 事例)
**研究者**
- Perma.cc で引用 URL を永続化
- データ・コードは Zenodo、OSF、GitHub Archive Program で別途保存
- インタビュー・フィールドノートは家族の権利付きで Permanent.org に保管
**市民・個人**
- 家族写真・文書は Permanent.org または NAS + クラウド二重バックアップ
- 個人ブログ・SNS 投稿は定期的に SingleFile / ArchiveBox でバックアップ
- お気に入りページは発見即時に Wayback Machine に保存(ブックマークレットまたは拡張)
**開発者・インフラ担当**
- 社内 Wiki、社内ドキュメントを ArchiveBox で定期バックアップ
- 外部依存ドキュメント(SaaS docs、blog 記事)はビルド時点で WACZ にパッケージ化
- オープンソースプロジェクトは Software Heritage Archive (softwareheritage.org) に自動ミラー
最も重要な事実は「デジタル永遠」など存在しないということです。自分の資料を守る人は結局自分自身であり、グローバルインフラ(IA、archive.today、NDL、OASIS)は補助手段です。2026 年の市民は「自分のデジタル資料の 30 年後の運命は自分が責任を持つ」という姿勢がデフォルトであるべきです。
18. 参考 / References
- Internet Archive — https://archive.org
- Wayback Machine — https://web.archive.org
- archive.today — https://archive.today(ミラー: archive.ph、archive.is)
- Save Page Now — https://web.archive.org/save/
- Common Crawl — https://commoncrawl.org
- Conifer — https://conifer.rhizome.org
- Webrecorder Software — https://webrecorder.net
- Browsertrix Crawler — https://github.com/webrecorder/browsertrix-crawler
- Browsertrix Cloud — https://browsertrix.com
- Replay.web.page — https://replayweb.page
- WACZ Specification — https://specs.webrecorder.net/wacz/latest/
- WARC (ISO 28500) — https://www.iso.org/standard/68004.html
- Heritrix — https://github.com/internetarchive/heritrix3
- Pywb — https://github.com/webrecorder/pywb
- Brozzler — https://github.com/internetarchive/brozzler
- Hachette v. Internet Archive (2024 ruling) — Second Circuit decision, 2024.09.04
- Perma.cc — https://perma.cc
- Permanent.org — https://www.permanent.org
- ArchiveBox — https://archivebox.io
- SingleFile — https://github.com/gildas-lormeau/SingleFile
- Library of Congress Web Archives — https://www.loc.gov/programs/web-archiving/
- 韓国国立中央図書館 OASIS — https://oasis.nl.go.kr
- 韓国学中央研究院 — https://www.aks.ac.kr(韓国学資料センター kostma)
- KEPRI デジタルアーカイブ — https://www.kepri.re.kr
- 国立国会図書館 NDL — https://www.ndl.go.jp
- NDL WARP — https://warp.da.ndl.go.jp
- IIPC (International Internet Preservation Consortium) — https://netpreserve.org
- Software Heritage — https://www.softwareheritage.org
- LOCKSS — https://www.lockss.org
- Memento Protocol (RFC 7089) — https://datatracker.ietf.org/doc/html/rfc7089
- Pew Research linkrot study (2024) — https://www.pewresearch.org/internet/2024/05/17/when-online-content-disappears/
- Harvard Law School Library on linkrot — https://cyber.harvard.edu/research/linkrot
현재 단락 (1/341)
ウェブの平均寿命は驚くほど短い。Harvard Law School が 2014 年に行った研究では、米国連邦最高裁判決が引用した外部 URL の約 49% が 5 年以内に切れていたと報告されまし...