인터넷 아카이브 & 디지털 보존 & 웹 아카이빙 2026 — Wayback Machine / archive.today / Conifer / Browsertrix / WARC / Perma.cc / NDL WARP / OASIS 심층 가이드

"Universal access to all knowledge — 모든 사람에게 인류의 모든 지식을. 그게 어렵다면, 적어도 사라지기 전에 복사본 한 장은 남기자." — Brewster Kahle, Internet Archive 창립자, 2019 TED Talk

웹의 평균 수명은 매우 짧습니다. Harvard Law School의 2014년 연구는 미국 연방대법원 판결문이 인용한 외부 URL의 약 49%가 5년 안에 깨졌다고 보고했고, 2024년 Pew Research 후속 연구는 2013년 작성된 웹 페이지의 약 38%가 2023년 시점에 이미 사라졌음을 보여줬습니다. 이걸 linkrot(링크 부식) 이라고 부릅니다. 우리가 매일 인용하고 공유하는 웹이, 사실은 매년 수 퍼센트씩 영구히 소멸되고 있다는 뜻입니다.

2026년 5월 현재, 이 linkrot에 맞서 싸우는 디지털 보존 생태계는 그 어느 때보다 풍성합니다. Brewster Kahle이 1996년에 만든 Internet Archive 와 그 안의 Wayback Machine 은 935B+ 페이지를 보존하며 사실상의 글로벌 백업 역할을 하고 있고, archive.today (archive.ph) 는 익명·즉시 아카이브로 저널리스트의 필수 도구가 됐습니다. 한편 Webrecorder 진영(Conifer, Browsertrix Crawler, Browsertrix Cloud, Replay.web.page)은 단순 스냅샷이 아니라 사용자 상호작용을 포함한 충실한(High-fidelity) 아카이브 라는 새로운 접근을 끌어가고 있습니다. Hachette v. Internet Archive 2024 판결 은 IA의 도서관 디지털 대출(CDL) 모델에 큰 타격을 주었지만, 동시에 디지털 보존의 법적 위치를 재정립하는 계기가 됐습니다.

이 글은 2026년 5월 시점의 디지털 보존·웹 아카이빙 생태계를 글로벌 비영리/익명/Webrecorder/정부/학술/셀프호스팅 여섯 갈래로 정리하고, WARC·WACZ 같은 포맷, Heritrix·Pywb 같은 인프라, Perma.cc·Permanent.org 같은 새로운 시도, 한국·일본의 정부 아카이브, 그리고 linkrot 시대를 살아가는 개인·연구자·도서관의 실전 전략까지 한 번에 다룹니다.

1. 2026년 디지털 보존 지도 — 글로벌 / 정부 / 셀프호스팅 / 학술 네 분류

디지털 보존 도구를 한눈에 보려면, 다음 네 개의 큰 분류로 나누면 편합니다.

분류	대표 프로젝트	운영 주체	주된 사용자
글로벌 비영리	Internet Archive (Wayback Machine), archive.today, Common Crawl	비영리 / 익명	모든 사람
Webrecorder 진영	Conifer, Browsertrix Crawler, Browsertrix Cloud, Replay.web.page	Webrecorder Software (Ilya Kreymer)	저널리스트 / 연구자 / 큐레이터
정부 / 국립도서관	Library of Congress Web Archives (LCWA), 国立国会図書館 WARP, 국립중앙도서관 OASIS, UK Web Archive	각국 국립도서관	정부 / 학자
학술 / 법률	Perma.cc (Harvard Law), Permanent.org	비영리 재단	변호사 / 학술 인용 / 개인
셀프호스팅	ArchiveBox, SingleFile, Pywb, Wallabag	오픈소스	개발자 / 도서관 IT
표준 / 인프라	WARC (ISO 28500), WACZ, Heritrix, Pywb	IIPC / Webrecorder	인프라 운영자

이 분류는 단순한 카테고리화가 아니라, 누가 보존하고 누가 비용을 내며 누가 접근하느냐 라는 거버넌스 차이를 반영합니다. Internet Archive는 기부와 도서관 회비로 운영되는 미국 비영리이고, archive.today는 익명 운영자가 도네이션으로 굴리는 사이트입니다. 국립도서관은 세금으로 운영되며 법적 권한(legal deposit, 납본법)이 있습니다. Perma.cc는 Harvard Law School이 주도하는 학술 컨소시엄이고, ArchiveBox는 누구나 자기 서버에서 돌릴 수 있는 오픈소스입니다.

2026년의 핵심 질문은 "어느 한 군데에 맡길 수 있느냐"가 아니라 "여러 곳에 복사본을 분산시켜야 한다" 는 LOCKSS(Lots Of Copies Keep Stuff Safe) 원칙으로 수렴하고 있습니다. Hachette 판결 이후 IA의 미래가 불확실해지면서, 단일 실패점(SPOF)을 피하는 다중 보존 전략의 중요성이 더 커졌습니다.

2. Internet Archive — Brewster Kahle, 1996년 창립

Internet Archive 는 1996년 5월 Brewster Kahle이 샌프란시스코에 설립한 비영리 디지털 도서관입니다. Kahle은 Thinking Machines 출신 엔지니어로, 1989년 WAIS(Wide Area Information Servers)를 만들고 Alexa Internet을 창업해 Amazon에 매각한 뒤(1999, 약 2억 5천만 달러), 그 자금 일부로 Internet Archive를 본격 가동했습니다.

2026년 5월 현재 Internet Archive의 규모는 다음과 같습니다.

총 데이터: 약 866PB+ (Petabytes, 페타바이트) — 단일 비영리가 운영하는 디지털 아카이브로는 세계 최대
Wayback Machine: 935B+ 페이지 (billion pages, 9,350억 페이지)
도서: 4,200만 권 디지털화 (Open Library 포함)
오디오: 2,000만 건 (Live Music Archive, Grateful Dead 컬렉션 등 포함)
비디오: 1,000만 건 (TV 뉴스 아카이브, 영화, 학술 강연)
소프트웨어: 100만+ 항목 (DOS, Mac OS Classic, 게임 ROM, MAME 에뮬레이션 제공)
이미지: 500만+ 건

Internet Archive는 다섯 개의 데이터센터(San Francisco 본부, Richmond, Petaluma, Vancouver, Amsterdam)에 데이터를 분산 저장하고, 모든 컬렉션을 페타바이트급 디지털 보관소(Digital Preservation Storage)에 다중 복제합니다. 자체 개발한 Petabox 스토리지 노드와 오픈소스 Hadoop·Solr·Elasticsearch 기반 검색 인덱스를 운영합니다.

운영 비용은 연 약 3,500만~4,000만 달러로, 90% 이상이 개인 기부와 도서관·아카이브 파트너의 회비에서 나옵니다. Kahle은 IA를 "디지털 알렉산드리아 도서관"이라고 부르며, 모든 데이터를 무료로 공개하는 것을 미션으로 삼고 있습니다.

archive.org 홈에서 가장 자주 쓰이는 진입점은 다음 다섯 가지입니다.

web.archive.org — Wayback Machine, 웹 페이지 스냅샷
archive.org/details/ — 컬렉션·항목 상세
openlibrary.org — Open Library, 도서 카탈로그·대출
scholar.archive.org — 학술 자료 검색
archive.org/details/software — 소프트웨어·게임 에뮬레이션 (브라우저에서 바로 실행 가능)

3. Wayback Machine — 935B+ 페이지의 시간 여행기

Wayback Machine 은 Internet Archive 안의 웹 페이지 스냅샷 검색·재현 서비스 입니다. 1996년부터 크롤링을 시작했고, 2001년부터 일반에 공개됐습니다. 이름은 만화 Peabody and Sherman의 시간 여행 기계 "WABAC machine"에서 왔습니다.

기본 사용법은 단순합니다. web.archive.org 에서 URL을 검색하면, 그 URL이 과거 어느 시점에 캡처됐는지 달력 뷰로 보여줍니다. 각 점은 한 번의 스냅샷이고, 클릭하면 그 시점의 페이지가 그대로 재현됩니다.

내부 구조는 다음과 같이 동작합니다.

[크롤러 Heritrix / Save Page Now]
        |
        v
[WARC 파일 (~수십 GB/일)]
        |
        v
[CDX 인덱스 — URL + 타임스탬프 + offset]
        |
        v
[Pywb 재현 엔진] ← 사용자 요청
        |
        v
[클라이언트가 받는 재현된 페이지]

URL 패턴은 다음과 같습니다. 매우 일관적이라 외워두면 편합니다.

https://web.archive.org/web/[YYYYMMDDhhmmss]/[원본 URL]
https://web.archive.org/web/2026*/https://example.com  # 모든 캡처
https://web.archive.org/web/2*/https://example.com    # 가장 최근

2026년 5월 기준 Wayback Machine의 주요 특징은 다음과 같습니다.

935B+ 페이지 — 1996년 이후 누적 (2025년 8월에 900B 돌파)
TimeTravel API — 다른 아카이브(Library of Congress, UK Web Archive 등)와 연합 검색 (Memento Protocol, RFC 7089)
Save Page Now (SPN) — 사용자가 직접 즉시 저장 (다음 챕터)
Wayback Machine Chrome Extension — 깨진 링크 우회, 가장 가까운 스냅샷 자동 탐색
Brozzler — Heritrix와 별개로 IA가 만든 헤드리스 크롬 기반 크롤러 (JS-heavy 사이트 대응)
CDX Server API — 인덱스 직접 질의 가능, 연구자에게 인기

연구자가 자주 쓰는 CDX API 예시는 다음과 같습니다.

# 특정 도메인의 모든 캡처 메타데이터 조회
curl "https://web.archive.org/cdx/search/cdx?url=example.com/*&output=json&limit=100"

# 2020년 이후 캡처만
curl "https://web.archive.org/cdx/search/cdx?url=example.com&from=20200101&to=20260101&output=json"

4. Hachette v. Internet Archive 2024 — IA에 큰 타격

2020년 3월 코로나19로 학교·도서관이 폐쇄되자 Internet Archive는 National Emergency Library (NEL) 라는 임시 프로그램을 시작했습니다. 평소에는 도서관 디지털 대출(Controlled Digital Lending, CDL)에서 보유 권수만큼만 동시 대출하던 정책을, "각자 집에서 책을 못 빌리는 비상 시기"라며 동시 대출 제한을 일시 해제했습니다.

2020년 6월, Hachette Book Group, HarperCollins, John Wiley, Penguin Random House 4대 출판사가 IA를 상대로 저작권 침해 소송을 제기했습니다 (Hachette v. Internet Archive, 1:20-cv-04160, S.D.N.Y.). 핵심 쟁점은 두 가지였습니다.

CDL(Controlled Digital Lending) 자체가 합법인가 — IA는 "물리 도서 1권 = 디지털 대출 1건" 비율을 지키므로 first-sale doctrine 안에 들어간다고 주장. 출판사는 디지털 복제 자체가 새로운 권리 침해라고 주장.
NEL의 동시 대출 제한 해제가 fair use인가 — IA는 비상시 공중보건·교육 목적이라 주장. 출판사는 단순한 무단 복제라 주장.

2023년 3월 John G. Koeltl 판사가 출판사 측 손을 들어주는 약식 판결을 내렸습니다 (CDL이 fair use가 아니라고 판단). 2024년 9월 4일 미국 제2순회 항소법원이 1심을 유지(affirm)하면서 IA는 패소가 확정됐습니다.

판결의 핵심 논리는 "IA의 디지털 대출이 출판사 e-book 시장과 직접 경쟁한다(transformative use 아님)"는 것이었고, 약 6억 2천만 달러($620M) 규모의 손해배상이 잠재적으로 산정 됐습니다. 양측은 2024년 말 비공개 합의로 액수를 조정했지만, IA는 이 사건으로 다음을 잃었습니다.

약 50만 권의 디지털 도서를 대출 카탈로그에서 제거 (2023년 말부터)
CDL의 법적 정당성에 대한 미국 내 정밀 타격 — 다른 도서관도 비슷한 프로그램을 위축
운영 자금에 직접적 압박 — IA의 연간 예산이 4천만 달러 안팎인데 합의금이 그 몇 배

판결 이후 IA는 도서 대출을 축소하고 웹 아카이빙·소프트웨어 보존·학술 자료 쪽으로 무게를 옮기고 있습니다. 또 다른 음반 산업 소송(UMG v. Internet Archive, "Great 78 Project" 관련)도 2024년 진행 중이라 IA의 미래는 여전히 불확실합니다.

이 사건이 디지털 보존 커뮤니티에 남긴 교훈은 명확합니다. 하나의 비영리에 모든 보존을 위탁할 수 없다. LOCKSS 원칙, 다중 백업, 정부·학술·익명 등 분산된 거버넌스의 중요성이 그 어느 때보다 커졌습니다.

5. archive.today (archive.ph / archive.is) — 익명 아카이브

archive.today 는 익명 운영자가 2012년에 시작한 웹 페이지 스냅샷 서비스입니다. 같은 사이트가 archive.today, archive.ph, archive.is, archive.li, archive.fo 등 여러 도메인으로 미러링되어 있고, 운영자는 공식적으로 신원을 밝히지 않습니다(IP는 체코로 알려져 있습니다).

Internet Archive와의 가장 큰 차이는 다음 세 가지입니다.

DMCA 비협조 — IA는 robots.txt와 출판사 요청에 응하지만, archive.today는 익명·해외 운영이라 사실상 모든 콘텐츠를 영구 보관
JS 렌더링 후 정적 스냅샷 — 헤드리스 브라우저로 페이지를 렌더링한 뒤 HTML + 스크린샷 두 가지를 모두 저장
즉시 저장 + 영구 단축 URL — archive.ph/abc12 같은 5~6자 코드로 영구 인용

저널리스트와 OSINT 커뮤니티에서 archive.today는 사실상 표준 도구입니다. 뉴스 사이트가 기사를 수정·삭제하거나, 정치인의 SNS 게시물이 사라지거나, 페이월 콘텐츠를 인용할 때 archive.today URL을 함께 첨부하는 관행이 자리 잡았습니다.

사용법은 매우 단순합니다.

# 저장
https://archive.ph/?url=https://example.com/article

# 또는 직접 입력
https://archive.ph/https://example.com/article

스냅샷 페이지에는 "원본 URL", "캡처 시각", "단축 URL", "다른 스냅샷" 링크가 함께 표시되고, 페이지 전체 스크린샷 PNG와 HTML 양쪽을 다운로드할 수 있습니다.

archive.today의 한계는 다음과 같습니다.

검색 인덱싱 약함 — Wayback Machine처럼 광범위한 풀텍스트 검색이 어려움
API 없음 — 자동화는 사실상 스크래핑에 의존
운영자 단일 의존 — 익명 1인 운영자에 모든 인프라가 묶여 있어 SPOF
속도가 들쭉날쭉 — 트래픽 폭증 시 캡처가 큐잉되거나 거부됨

그럼에도 불구하고 "출판사 요청에 응하지 않는 아카이브"라는 포지션은 유일무이하며, Wayback Machine과 상호 보완 관계입니다.

6. Save Page Now — 빠른 아카이빙

Save Page Now (SPN) 는 Internet Archive가 제공하는 사용자 주도형 즉시 아카이빙 기능입니다. 누구나 URL을 입력해 Wayback Machine에 즉시 캡처할 수 있고, 2019년 발표된 v2에서는 외부 링크, 첨부 파일, 임베드된 미디어까지 함께 캡처하는 옵션이 추가됐습니다.

진입점은 세 가지입니다.

Web UI: web.archive.org/save 에서 URL 입력
북마클릿: 브라우저 북마크에 자바스크립트 코드를 저장해 한 클릭으로 캡처
공식 Chrome / Firefox / Safari 확장 — 우클릭 → "Save Page Now"

대량 자동화에는 SPN2 API 를 사용합니다. 키 발급 후 POST 한 번으로 큐잉됩니다.

curl -X POST "https://web.archive.org/save/" \
  -H "Authorization: LOW <access_key>:<secret>" \
  -d "url=https://example.com/article&capture_all=1"

응답으로 job_id 가 나오고, /save/status/<job_id> 에서 진행 상태를 폴링할 수 있습니다. 처리는 보통 10~~60초가 걸리고, JS 렌더링이 무거운 페이지는 2~~3분까지 걸립니다.

저널리스트가 자주 쓰는 패턴은 "기사를 인용하기 전에 SPN으로 캡처한 다음, 본문에는 원본 URL과 web.archive.org URL을 동시에 표기"하는 것입니다. 이렇게 하면 원본이 수정·삭제되어도 인용의 무결성이 유지됩니다.

2023년부터는 Save Page Now → Wayback Machine 색인 반영 시간이 평균 5분 이내 로 줄어들어서, "기사를 보고 5분 안에 캡처 + 트윗"이 충분히 가능합니다.

7. Conifer (전 Webrecorder) — 인터랙티브 아카이브

Conifer 는 Webrecorder.io가 2020년 이름을 바꾼 서비스로, 사용자가 브라우저로 직접 사이트를 탐색하면서 그 인터랙션을 그대로 녹화해 아카이브하는 도구입니다. 만든 사람은 Ilya Kreymer로, Internet Archive에서 Pywb를 개발한 뒤 Rhizome(뉴욕의 디지털 아트 보존 비영리)을 거쳐 Webrecorder Software를 분사 창립했습니다.

기존 크롤러 기반 아카이빙의 한계는 다음과 같았습니다.

로그인 뒤 컨텐츠 캡처 어려움
JS-heavy SPA, 무한 스크롤, 동적 로딩 콘텐츠 일부만 캡처
사용자가 클릭해야 나오는 모달·드롭다운 미캡처
페이월·구독 컨텐츠 캡처 불가

Conifer는 이걸 "사람이 직접 브라우저로 돌아다니면 그 트래픽을 모두 WARC로 녹음" 하는 방식으로 해결했습니다. 작동 흐름은 다음과 같습니다.

conifer.rhizome.org에 가입 → 새 컬렉션 생성
컬렉션 안에서 "Start Recording" 클릭 → 새 탭에 프록시된 브라우저 열림
평소처럼 탐색 — 로그인, 스크롤, 클릭, 모달 열기
모든 네트워크 트래픽이 백그라운드에서 WARC 파일로 저장
녹화 종료 → 컬렉션에 영구 보관, 언제든 재생(replay) 가능

Conifer는 무료 5GB, 유료 플랜은 100GB 이상까지 확장됩니다. 디지털 아트, 인터랙티브 픽션, 인터랙티브 데이터 시각화 같은 "코드와 인터랙션 자체가 작품"인 보존 대상에 특히 유용합니다. 뉴욕 현대미술관(MoMA), Rhizome ArtBase, 영국 British Library가 디지털 아트 작품 보존에 Conifer를 사용합니다.

한계도 분명합니다. 사람이 하나하나 클릭해야 하므로 스케일이 안 납니다. 10페이지 뉴스 사이트는 가능하지만, 10,000페이지 위키는 불가능합니다. 이 한계를 풀려고 만든 게 다음 챕터의 Browsertrix입니다.

8. Browsertrix Crawler + Browsertrix Cloud — 자동화된 충실도 높은 크롤링

Webrecorder 진영의 두 번째 도구는 Browsertrix 입니다. Conifer의 "사람이 직접 클릭" 방식을 Playwright 기반 헤드리스 브라우저로 자동화한 크롤러입니다.

제품	형태	라이선스
Browsertrix Crawler	Docker 이미지로 배포되는 CLI	AGPL-3.0
Browsertrix Cloud	Browsertrix Crawler를 SaaS로 제공	유료 / 비영리 무료 티어

Browsertrix Crawler는 다음과 같이 실행합니다.

docker run -v $PWD/crawls:/crawls \
  -it webrecorder/browsertrix-crawler crawl \
  --url https://example.com \
  --scopeType domain \
  --depth 3 \
  --behaviors autoscroll,autoplay,autofetch,siteSpecific \
  --generateWACZ \
  --collection my-crawl

핵심 매개변수는 다음과 같습니다.

--url — 시작 URL (여러 개 지정 가능)
--scopeType — page, prefix, host, domain, any 중 선택, 어디까지 따라갈지 결정
--depth — 링크를 몇 단계까지 따라갈지
--behaviors — 사이트별 동작 시뮬레이션 (자동 스크롤, 자동 재생, 무한 스크롤 처리 등)
--generateWACZ — 결과를 WACZ 패키지로 묶기
--profile — 사전에 만든 브라우저 프로필(로그인 쿠키 포함) 적용

--behaviors 가 Browsertrix의 진짜 차별점입니다. Twitter/X, YouTube, Instagram, Facebook, Medium 같은 주요 사이트마다 "Twitter는 끝까지 스크롤해야 타임라인이 다 로드된다", "YouTube는 자동 재생을 켜야 영상 내용이 캡처된다" 같은 사이트별 휴리스틱이 라이브러리로 들어 있습니다.

Browsertrix Cloud 는 이 크롤러를 SaaS로 제공합니다. 2024년 베타를 거쳐 2025년 정식 출시됐고, 2026년 5월 현재 다음 기관이 사용 중입니다.

Stanford Libraries — 영문학·예술 디지털 컬렉션
The New York Times R&D — 뉴스 기사 자체 보존
Internet Archive — 일부 큐레이션 컬렉션
Bibliothèque nationale de France — 프랑스 문화유산 웹사이트

요금은 비영리·교육 무료 티어와 GB·크롤 시간 기반 유료 티어가 있고, 결과물은 항상 WACZ로 다운로드 가능해 vendor lock-in이 없습니다.

9. Replay.web.page + WACZ — 새로운 포맷의 부상

Webrecorder 진영의 세 번째 핵심은 WACZ 포맷 과 Replay.web.page 입니다.

WACZ (Web Archive Collection Zipped) 는 2021년 Webrecorder가 제안한 포맷으로, 사실상 "WARC 파일들을 ZIP에 담고 인덱스·메타데이터를 추가한 것"입니다. 구조는 다음과 같습니다.

my-collection.wacz   (ZIP 컨테이너)
├── archive/
│   ├── data-001.warc.gz
│   └── data-002.warc.gz
├── indexes/
│   ├── index.cdx.gz       # CDXJ 인덱스
│   └── index.idx          # 보조 인덱스
├── pages/
│   └── pages.jsonl        # 페이지 목록·메타데이터
├── metadata.yaml          # 컬렉션 메타데이터
├── datapackage.json       # Frictionless Data Package 표준
└── datapackage-digest.json # SHA-256 해시

WARC(.warc.gz)는 일반 HTTP 요청/응답 시퀀스만 담는 저수준 포맷인 반면, WACZ는 그 위에 메타데이터·서명·페이지 목록·인덱스 를 표준화해서 단일 파일로 배포·검증할 수 있게 만든 패키지 포맷입니다. WACZ에는 detached cryptographic signature 가 들어가서 변조 여부도 검증할 수 있습니다.

WACZ가 빛나는 순간은 Replay.web.page 라는 클라이언트 사이드 재생기와 조합될 때입니다.

<replay-web-page source="https://example.com/my-archive.wacz" url="https://example.com/page"></replay-web-page>

이 Web Component 하나만 페이지에 박으면, WACZ 파일을 서버에서 직접 다운로드해 브라우저 안에서 바로 재현됩니다. 서버 측 재현 엔진(Pywb 등)이 필요 없습니다. 정적 호스팅(GitHub Pages, Netlify, Cloudflare Pages, S3) 위에 WACZ만 올리면 영구 아카이브가 됩니다.

이 모델은 다음 시나리오에서 강력합니다.

박물관·도서관이 디지털 컬렉션을 영구적으로 공개 (서버 비용 없음)
저널리스트가 기사 본문에 WACZ를 embed해서 페이월 페이지를 영구 보존
학술 논문이 인용 웹페이지의 WACZ를 supplemental material로 첨부
개인 블로거가 자기 글에 인용한 외부 페이지의 WACZ를 함께 호스팅

2025년 기준 WACZ는 IIPC(International Internet Preservation Consortium) 산하 워킹그룹에서 표준화 작업이 진행 중이고, 2026년 5월 시점 spec 1.1.1이 안정 버전입니다.

10. WARC (ISO 28500) + Heritrix + Pywb — 인프라 삼총사

WACZ가 새로운 패키지 포맷이라면, WARC 는 모든 웹 아카이빙의 저수준 표준입니다.

WARC (Web ARChive) 는 2009년 ISO 28500으로 표준화된 컨테이너 포맷입니다. ARC(Internet Archive가 1996년부터 사용한 자체 포맷)의 후속으로, 한 파일에 여러 HTTP 요청/응답을 순서대로 담습니다. 2017년에 ISO 28500:2017로 개정됐고 2026년 현재 ISO 28500:2017이 유효합니다.

WARC 파일의 한 레코드는 다음과 같이 생겼습니다.

WARC/1.1
WARC-Type: response
WARC-Record-ID: <urn:uuid:abc-123-...>
WARC-Date: 2026-05-16T10:00:00Z
WARC-Target-URI: https://example.com/page
Content-Type: application/http; msgtype=response
Content-Length: 12345

HTTP/1.1 200 OK
Content-Type: text/html

<html>...</html>

레코드 타입은 response (실제 응답), request (요청), warcinfo (파일 메타), metadata (보조 메타), revisit (중복 회피 참조) 등이 있습니다. 한 WARC 파일은 일반적으로 1GB 정도에서 끊어 새 파일을 시작합니다.

Heritrix 는 Internet Archive가 2003년부터 개발한 자바 기반 대규모 분산 크롤러 입니다. WARC 표준의 사실상 기준 구현이고, IA 자체뿐 아니라 미국 의회도서관, 영국 British Library, 아이슬란드 국립도서관 등 거의 모든 국가 도서관급 웹 아카이빙이 Heritrix를 사용합니다. 2026년 5월 현재 안정 버전은 3.4.0이며 Apache License 2.0입니다.

Heritrix의 강점은 수십억 페이지 규모의 크롤링 안정성 입니다. robots.txt 준수, 도메인별 정중함(politeness) 지연, 분산 다중 인스턴스, 디스크 캐시, URL 정규화, 중복 회피 — 이 모든 게 검증된 운영 환경에서 돌아갑니다. 약점은 JS 렌더링이 안 된다는 점이라, IA는 Heritrix와 별도로 Brozzler(Headless Chromium 기반)를 운영합니다.

Pywb (Python Wayback) 는 Webrecorder의 Ilya Kreymer가 IA 시절 만들어 오픈소스로 공개한 WARC 재현 엔진 입니다. Python으로 작성됐고, IA의 자체 Wayback 엔진과 별개로 누구나 자기 서버에서 Wayback Machine을 돌릴 수 있게 해줍니다. Conifer, Browsertrix Cloud, 미국 의회도서관 일부 컬렉션, 그리고 수많은 대학 도서관이 Pywb를 사용합니다.

Pywb로 자기 Wayback을 띄우는 건 매우 단순합니다.

pip install pywb
wb-manager init my-archive
wb-manager add my-archive ./my-crawl.warc.gz
wayback --port 8080
# 브라우저에서 http://localhost:8080/my-archive/2026*/https://example.com

이 세 도구(WARC + Heritrix + Pywb)가 디지털 보존 인프라의 사실상 표준 스택입니다.

11. Perma.cc — Harvard Law의 인용 링크 영구화

Perma.cc 는 Harvard Law School Library가 2013년 시작한 학술·법률용 영구 링크 서비스입니다. 동기는 단순합니다. "법학 논문에서 인용한 URL의 70% 이상이 깨진다"는 자체 조사 결과였습니다.

작동 방식은 다음과 같습니다.

가입한 사용자(주로 변호사·법학자·저널 편집자)가 URL을 입력
Perma.cc가 그 페이지를 HTML + PNG 스크린샷 양쪽으로 캡처
perma.cc/ABC1-DEF2 형태의 영구 단축 URL 발급
논문·판결문에는 원본 URL과 perma.cc URL을 함께 표기

핵심은 거버넌스입니다. Perma.cc는 160개 이상의 법학도서관 컨소시엄(Perma.cc Registrars) 이 운영하고, 캡처본은 컨소시엄 분산 스토리지에 저장됩니다. Harvard 한 곳이 망하더라도 다른 도서관이 데이터를 인수받는 구조입니다.

요금 체계는 다음과 같습니다.

Public users: 월 10건 무료
Faculty / Registrars: 무제한 무료 (소속 도서관이 회비를 냄)
Subscriber organizations: 유료 플랜

미국 법조계에서 Perma.cc는 사실상 표준 인용 도구가 됐습니다. The Bluebook(미국 법률 인용 가이드) 20판 이후로 perma.cc URL이 "URL이 사라질 우려가 있을 때 권장되는 안정 인용 형식"으로 명시됐고, 2024년 기준 미국 연방대법원 의견서의 다수가 perma.cc 링크를 본문에 직접 포함합니다.

Perma.cc 자체도 WARC를 백엔드로 사용해서, 컬렉션 통째로 WARC로 export할 수 있습니다. 즉, 사용자에게는 영구 단축 URL을 주지만, 내부적으로는 표준 WARC로 보관 — 표준과 사용성을 모두 잡은 모범 사례입니다.

12. Permanent.org — 개인 디지털 유산 보존

Permanent.org 는 2017년 설립된 비영리 디지털 유산 보관 서비스입니다. 개인이 자기 사진·문서·영상을 평생, 그리고 그 이후까지 보관할 수 있도록 설계됐습니다. Internet Archive 출신 일부 엔지니어가 합류해 IA의 인프라 노하우를 일부 공유합니다.

Permanent.org의 차별점은 다음과 같습니다.

One-time payment — 월 구독이 아니라 1회 비용으로 영구 저장 (모델: 100GB $10, 1TB $50 수준)
Beneficiary system — 사망 시 지정 수령자가 자동으로 상속
Open content option — 사용자가 원할 경우 컬렉션을 공개 공유 가능
Migration guarantee — 포맷 변환·미디어 교체 비용을 회비에 포함

비영리 모델의 핵심 가설은 "월 구독 결제가 끊어지면 자료가 사라지는 클라우드 스토리지(Google Drive, iCloud, Dropbox)와 달리, 한 번 비용을 받고 그 돈을 endowment(기금)로 운용해 100년 이상 운영한다"는 것입니다. 실제로 Permanent.org는 자금의 약 70%를 endowment로 운용하고, 30%를 현재 운영비로 씁니다.

가족 사진 수십 GB가 Apple, Google, Dropbox 사이를 옮겨다니다 어느 순간 사라진 경험은 누구나 한 번쯤 있을 겁니다. Permanent.org는 이 문제를 비영리·일회성 결제·법적 상속이라는 세 가지 축으로 해결하려는 시도입니다.

2026년 현재 가입자 약 1만 명, 보관 데이터 약 200TB 규모로 작지만, 모델 자체가 디지털 유산 분야의 중요한 실험으로 평가받습니다.

13. ArchiveBox + SingleFile — 셀프호스팅의 부상

내 컴퓨터에 직접 아카이브 인프라를 돌리고 싶다면, ArchiveBox 가 사실상 표준입니다. Nick Sweeting이 2017년에 시작한 Python 기반 오픈소스로, "북마크 매니저 + Wayback Machine + 영구 보관"을 셀프호스팅으로 제공합니다.

특징은 다음과 같습니다.

다중 백엔드 — 한 URL을 추가하면 동시에 WARC, HTML, PDF, PNG 스크린샷, YouTube-DL(영상), Git clone, 기사 본문(Readability) 등 7~10개 포맷으로 저장
CLI + Web UI — archivebox add <url> 한 줄로 추가, 웹 UI에서 검색
JSON + SQLite — 메타데이터를 표준 포맷으로 보관, 다른 도구로 export 쉬움
Docker / Docker Compose 지원 — docker run -v ./data:/data archivebox/archivebox

설치와 첫 사용은 다음과 같이 간단합니다.

# Docker 방식
docker run -v $PWD/data:/data -it archivebox/archivebox init --setup

# URL 추가
docker run -v $PWD/data:/data archivebox/archivebox add 'https://example.com/article'

# 웹 UI 띄우기
docker run -v $PWD/data:/data -p 8000:8000 archivebox/archivebox server 0.0.0.0:8000

ArchiveBox의 강점은 포맷 다중성 입니다. WARC 하나만 있으면 재현 엔진이 필요하지만, PDF·PNG·HTML 같이 다양한 포맷으로 동시에 저장하면 어떤 미래에도 최소한 한 형식은 읽을 수 있습니다. 디지털 보존 커뮤니티의 "format diversity" 원칙을 가장 잘 구현한 도구입니다.

SingleFile 은 Gildas Lormeau가 만든 Chrome / Firefox 확장으로, 현재 브라우저에 보이는 페이지를 단일 HTML 파일로 통째로 저장 합니다. 이미지·CSS·폰트·JS를 모두 인라인으로 끼워 넣어 의존성 없는 self-contained HTML 한 장이 됩니다.

# CLI 버전도 있음
npm install -g single-file-cli
single-file https://example.com output.html

ArchiveBox는 내부적으로 SingleFile을 백엔드 중 하나로 사용합니다. 개인이 빠르게 "이 페이지 저장해두고 싶다" 할 때는 SingleFile 확장 한 번 클릭이 가장 가볍습니다.

대안으로 Wallabag (RSS·읽기 큐 위주), Hypothesis (주석 위주), Zotero (학술 인용 위주) 등이 있고, 각자 강점이 다르지만 WARC + Markdown export 를 모두 갖춘 건 ArchiveBox 정도가 유일합니다.

14. 한국 — 국립중앙도서관 OASIS, KEPRI 디지털 아카이브, 한국학중앙연구원

한국의 웹 아카이빙은 국립중앙도서관(NLK)이 주도하고 있습니다.

국립중앙도서관 OASIS (Online Archiving and Searching Internet Sources) 는 2003년 시작된 한국 정부의 공식 웹 아카이빙 프로그램입니다. 도메인은 oasis.nl.go.kr 이고, 2026년 5월 현재 수집 자료는 다음과 같습니다.

누적 수집 웹사이트: 약 3,200만 건
연간 신규 수집: 약 200만 건
저장 용량: 약 2PB
주요 수집 대상: 정부·공공기관 사이트, 학술 자료, 시사·문화 사이트, 선거·재난 등 이벤트 기반 특별 수집

OASIS는 2010년 개정된 도서관법(현재 도서관법 제20조 및 시행령)에 따라 온라인 자료 납본 제도 의 근거를 가집니다. 한국에서 출판된 디지털 자료는 국립중앙도서관에 납본할 의무가 있고, 웹사이트는 동의 기반과 자체 수집 기반이 병행됩니다.

OASIS 사용자 입장에서 자주 쓰는 진입점은 다음과 같습니다.

oasis.nl.go.kr/search — 키워드 검색
oasis.nl.go.kr/wayback/[YYYYMMDDhhmmss]/[원본 URL] — Wayback 스타일 시점 재현
학술용 일괄 다운로드는 별도 신청 후 제공

KEPRI (한국전력공사 전력연구원) 디지털 아카이브 는 전력 산업·기술 분야의 도면·연구보고서·표준을 보존하는 분야 특화 아카이브입니다. 일반 공개보다는 산업·학술 협력 채널을 통해 접근합니다.

한국학중앙연구원 (Academy of Korean Studies) 은 디지털 한국학 자료를 모은 한국학자료센터(kostma.korea.ac.kr) 와 한국학자료포털을 운영합니다. 고문서, 족보, 지방지(읍지), 일제강점기 신문 같은 한국학 1차 자료를 디지털화해 무료 공개합니다. 자체 IIIF 뷰어를 갖춰 고문서 페이지 단위로 zoom·annotation이 가능합니다.

분야별 한국 아카이브 진입점을 정리하면 다음과 같습니다.

분야	기관	URL
일반 웹	국립중앙도서관	oasis.nl.go.kr
한국학 1차 자료	한국학중앙연구원	kostma.korea.ac.kr
국가기록원	국가기록원	archives.go.kr
학술 논문	KISTI, RISS, KCI	kiss.kstudy.com, riss.kr, kci.go.kr
신문·뉴스	빅카인즈 (한국언론진흥재단)	bigkinds.or.kr
영상·방송	한국영상자료원, KBS 아카이브	koreafilm.or.kr
전력·기술	KEPRI 디지털 아카이브	kepri.re.kr

OASIS는 Wayback Machine의 935B 페이지에 비하면 작은 규모지만, 한국 도메인(.kr) 컨텐츠의 보존을 정부 단위로 책임 진다는 점에서 의미가 큽니다. IA가 글로벌 백업이라면, OASIS는 한국 문화유산의 1차 책임자입니다.

15. 일본 — 国立国会図書館 NDL + WARP

일본의 공식 웹 아카이빙은 国立国会図書館 (NDL, National Diet Library) 의 WARP (Web Archiving Project) 가 담당합니다.

WARP는 2002년 시범 사업으로 시작해 2010년 국립국회도서관법 개정으로 법적 권한을 얻었습니다. 2026년 5월 현재 다음 규모입니다.

누적 수집 URL: 약 27억 건
저장 용량: 약 1.5PB
수집 대상: 일본 정부·지방자치단체 사이트(전수 수집), 공익법인, 학술 사이트, 시사 사이트(선별 수집)

WARP의 특징은 정부·지방자치단체 사이트는 동의 없이 전수 수집 한다는 점입니다. 일본 국립국회도서관법 제25조의3은 정부 기관의 인터넷 자료를 NDL이 수집·보존할 수 있다고 규정하며, 민간 사이트는 사이트 운영자의 동의를 받는 옵트인 모델입니다.

진입점은 다음과 같습니다.

warp.da.ndl.go.jp/search/ — 키워드 검색
warp.da.ndl.go.jp/info:ndljp/pid/[ID] — 영구 식별자(NDL Persistent ID)
warp.da.ndl.go.jp/waybackmachine/[YYYYMMDDhhmmss]/[URL] — Wayback 스타일

WARP의 흥미로운 점은 수집 빈도가 사이트 유형마다 다르다 는 것입니다. 정부 부처는 월 1~2회, 지방자치단체는 분기 1회, 학술 기관은 반기 1회, 그리고 선거·재해 등 이벤트가 발생하면 임시로 일별 집중 수집이 활성화됩니다. 2011년 동일본 대지진 직후 NDL은 약 1만 개 사이트를 비상 수집 모드로 전환한 사례가 있습니다.

NDL은 또한 デジタルコレクション (Digital Collections) 라는 일본 출판물(도서, 잡지, 박사논문, 음원, 영상) 디지털화 프로젝트를 운영합니다. 누구나 인터넷에서 무료로 열람할 수 있는 자료는 약 60만 건이고, 도서관 송신 서비스로 추가 200만 건이 제공됩니다.

일본은 또한 国立公文書館 (NAA, National Archives of Japan) 이 정부 공문서를 디지털화해 공개하고, 国会会議録検索システム 이 1947년 이후 국회 의사록을 풀텍스트로 검색할 수 있게 합니다. NDL + NAA + 国会会議録 세 축이 일본 디지털 기록 보존의 기둥입니다.

16. linkrot 위기 — 우리는 어떻게 대응할까

서두에서 언급한 linkrot 현상은 학계·저널리즘·정부에서 모두 심각하게 인식되고 있습니다. 2024년 Pew Research는 다음 통계를 보고했습니다.

2013년 작성된 웹 페이지의 38%가 2023년에 사라짐
위키피디아 외부 인용 링크의 11%가 깨짐 (2024년 기준)
미국 정부 사이트의 21%가 도메인 이전이나 재편으로 옛 URL 깨짐 (2020-2024)
소셜미디어 게시물의 50% 이상이 5년 안에 비공개·삭제되거나 사라짐

linkrot의 원인은 다음과 같이 분류됩니다.

DNS·서버 폐쇄 — 회사 폐업, 호스팅 만료
URL 구조 변경 — CMS 마이그레이션, 사이트 리뉴얼
소셜미디어 계정 폐쇄 — 사용자 자체 삭제, 플랫폼 차원의 정지
유료화 — 페이월 도입으로 사실상 공개 자료가 비공개로

대응 전략은 보존하는 쪽(produce side)과 인용하는 쪽(cite side)으로 나뉩니다.

보존하는 쪽 (Producer)

표준 포맷 사용 — WARC + WACZ
여러 곳에 분산 백업 — IA, archive.today, Perma.cc, 자체 ArchiveBox
법적·계약적 보장 확보 — 라이선스 명시, 도서관 협약
포맷 마이그레이션 계획 — 10년 단위로 포맷 점검·이전

인용하는 쪽 (Citer)

인용 시점에 즉시 캡처 — Save Page Now, archive.today 동시 사용
두 가지 이상 단축 URL 표기 — 원본 + perma.cc + web.archive.org
풀텍스트 또는 핵심 발췌 포함 — URL이 다 깨져도 본문에서 인용 의미 복구 가능
로컬 PDF 백업 — 자기 컴퓨터·NAS에 사본 보관

특히 학술 저널·뉴스 미디어에서는 "인용한 URL은 모두 사전에 archive해 둔다" 가 새로운 표준이 되고 있습니다. The New York Times, The Atlantic, ProPublica, 일본 NHK, 한국 한겨레·경향이 모두 자체적으로 인용 링크 보존 정책을 도입했습니다.

17. 누가 디지털 보존에 관심을 가져야 하나 — 도서관 / 저널리스트 / 연구자 / 시민

디지털 보존은 도서관·아키비스트만의 일이 아닙니다. 2026년에는 거의 모든 정보 노동자가 자기 분야의 보존 책임을 일부 나눠 가집니다.

도서관 / 아키비스트

WARC + Pywb로 자체 컬렉션 운영
Browsertrix Cloud나 Conifer를 큐레이션 도구로 활용
Perma.cc 컨소시엄 가입(학술도서관)
LOCKSS 원칙에 따라 다른 도서관과 협력

저널리스트

기사 발행 전 모든 외부 URL을 archive.today / Save Page Now로 캡처
정치인 SNS 게시물, 기업 공시 등 변경·삭제 위험 있는 자료는 두 가지 이상 아카이브
WACZ를 활용해 자체 미디어 아카이브 구축 (NYT R&D, ProPublica 사례)

연구자

Perma.cc로 인용 URL 영구화
데이터·코드는 Zenodo, OSF, GitHub Archive Program으로 별도 보존
인터뷰·필드 노트는 Permanent.org에 가족 권리와 함께 저장

시민·개인

가족 사진·문서는 Permanent.org 또는 NAS + 클라우드 이중 백업
개인 블로그·SNS 게시물은 정기적으로 SingleFile / ArchiveBox로 백업
즐겨찾는 페이지는 발견 즉시 Wayback Machine에 저장 (북마클릿 또는 확장)

개발자·인프라

회사 위키, 사내 문서를 ArchiveBox로 정기 백업
외부 의존 문서(SaaS docs, blog 글)는 빌드 시점에 WACZ로 패키지
오픈소스 프로젝트는 Software Heritage Archive (softwareheritage.org)에 자동 미러

가장 중요한 사실은 "디지털 영원" 같은 건 없다는 것입니다. 자기 자료를 지킬 사람은 결국 자기 자신이고, 글로벌 인프라(IA, archive.today, NDL, OASIS)는 보조 수단입니다. 2026년의 시민은 "내 디지털 자료의 30년 후 운명은 내가 책임진다"는 자세가 기본값이 되어야 합니다.

18. 참고 / References

Internet Archive — https://archive.org
Wayback Machine — https://web.archive.org
archive.today — https://archive.today (미러: archive.ph, archive.is)
Save Page Now — https://web.archive.org/save/
Common Crawl — https://commoncrawl.org
Conifer — https://conifer.rhizome.org
Webrecorder Software — https://webrecorder.net
Browsertrix Crawler — https://github.com/webrecorder/browsertrix-crawler
Browsertrix Cloud — https://browsertrix.com
Replay.web.page — https://replayweb.page
WACZ Specification — https://specs.webrecorder.net/wacz/latest/
WARC (ISO 28500) — https://www.iso.org/standard/68004.html
Heritrix — https://github.com/internetarchive/heritrix3
Pywb — https://github.com/webrecorder/pywb
Brozzler — https://github.com/internetarchive/brozzler
Hachette v. Internet Archive (2024 ruling) — Second Circuit decision, 2024.09.04
Perma.cc — https://perma.cc
Permanent.org — https://www.permanent.org
ArchiveBox — https://archivebox.io
SingleFile — https://github.com/gildas-lormeau/SingleFile
Library of Congress Web Archives — https://www.loc.gov/programs/web-archiving/
국립중앙도서관 OASIS — https://oasis.nl.go.kr
한국학중앙연구원 — https://www.aks.ac.kr (한국학자료센터 kostma)
KEPRI 디지털 아카이브 — https://www.kepri.re.kr
国立国会図書館 NDL — https://www.ndl.go.jp
NDL WARP — https://warp.da.ndl.go.jp
IIPC (International Internet Preservation Consortium) — https://netpreserve.org
Software Heritage — https://www.softwareheritage.org
LOCKSS — https://www.lockss.org
Memento Protocol (RFC 7089) — https://datatracker.ietf.org/doc/html/rfc7089
Pew Research linkrot study (2024) — https://www.pewresearch.org/internet/2024/05/17/when-online-content-disappears/
Harvard Law School Library on linkrot — https://cyber.harvard.edu/research/linkrot