操作

インターネットアーカイブ

インターネットアーカイブ
Internet Archive
URL archive.org
使用言語 英語
タイプ 電子図書館
運営者 ブリュースター・ケール
アレクサ
ランキング
262位[1]
営利性 非営利
設立日 1996年 (1996)
ファイル:Feb 2008 San Francisco Wikimedia Meetup 01.jpg
旧インターネットアーカイブ本部(1996年 - 2009年11月)
ファイル:Christian science church122908 02.jpg
新インターネットアーカイブ本部(2009年11月 - )

インターネットアーカイブ[注 1] (The Internet Archive) は、WWWマルチメディア資料のアーカイブ閲覧サービスとして有名なウェイバックマシン (Wayback Machine)[注 2]を運営している団体である。本部はカリフォルニア州サンフランシスコのリッチモンド地区に置かれている。

アーカイブにはプログラムが自動で、または利用者が手動で収集したウェブページのコピー(ウェブアーカイブ)が混在しており、これは「WWWのスナップショット」と呼ばれる。ほか、ソフトウェア映画録音データ(音楽バンドなどの許可によるライブ公演の録音も含む)などがある。アーカイブは、それらの資料を無償で提供している。

設立の理念

アーカイブは1996年ブリュースター・ケールによって設立された。
公式サイトによれば、その使命は以下のとおりである: テンプレート:引用

人類の知識と遺産を保存してそのコレクションを公開するというその目標からか、アレクサンドリア図書館に例えられることもある。

ウェイバックマシン

ウェイバックマシン (Wayback Machine)[注 2]はインターネットアーカイブが保存するウェブアーカイブを閲覧することのできるサービスである。インターネットアーカイブのもっともよく知られたサービスの一つであり、ときに「インターネットアーカイブ」がウェイバックマシンと同義に使われることもある他、「ウェイバックマシン」がその背景のWebクローリングを含んだ意味で使われることもある。ウェイバックマシンを使えば、ウェブページが保存された時点の状態を閲覧することができ、また「Save Page」にURLを貼り付けることで、そのページをその場でインターネットアーカイブのウェブアーカイブに保存できる。インターネットアーカイブはウェイバックマシンの技術を「3次元インデックス」と呼んでいる。

ウェイバックマシンで閲覧可能なウェブアーカイブは、1996年のサービス開始当時はアレクサ・インターネットから提供されたデータが元であったが、インターネットアーカイブは2010年後半から独自の大規模Webクローリングを開始し、現在では自身で収集したデータが半分以上を占める。以前はデータ収集から公開まで半年から一年かかっていたが、独自のWebクローリングと2013年の技術革新により、数時間から一日で公開されるようになった。また「Save Page」で保存されたものは即時に閲覧可能である。

ウェイバックマシンが保持しているデータ量は、2001年時点ではおよそ100テラバイトに過ぎなかったが、2004年時点で1ペタバイトに達し、月に20テラバイトの割合で増加を続けている。2003年に報告された増加率は月あたり12テラバイトであったので、1年でおよそ倍の速度になった。これは、議会図書館など世界最大規模の図書館の文書量をはるかに上回るものである。そして2012年にはデータ総量は10ペタバイトを超えた[4]。保存されたページ数(厳密には「ページ」ではない画像やスクリプトなども含む)では、2015年6月現在で4820億に達し、一週間あたりおよそ10億ページの割合で増加中である。このデータのコピーは新アレクサンドリア図書館にも保存されている。

ウェイバックマシンの過去のページの再生表示は、様々な理由により不完全であることがある。例えば、アレクサ・インターネットから提供されるデータにはHTMLファイルしか含まれていないため、2010年以前のアーカイブはページの画像などが表示されないものが大半である。またWebクローリングの技術的制約により、Webページの再生に必要なデータ全てが収集されないことや、Webページの再生表示技術の制約などによりページ表示が正常に行われないことなどは、特に最近の高度に動的なWebページではよく見られる。また、ウェブページを構成するスクリプトや画像などの部品はページのHTMLと同時点で収集されたものとは限らず、1年以上の時間差があることも稀ではない。さらに、いったん収集されたWebアーカイブが、関係者の要請やrobots.txtの配置によりウェイバックマシンから取り除かれることもある。

「ウェイバックマシン」という名称はロッキー・アンド・ブルウィンクル・ショーEnglish版の一シーンからとられた。このアニメシリーズは学者風の蝶ネクタイをした犬のピーボディ先生と人間の助手シャーマンが「ウェイバックマシン (WABAC machine)」と呼ぶタイムマシンを使って歴史上の有名な事件にちょっかいを出すというコメディアニメである。

公的な保存とは別途、個人のレベルでも、特定の個人がインターネット上に運営していたWebサイト、Blogを個人の死後も管理、保存することがどのようにして可能か、といった話題もWeb Magazine、Web ニュースなどに出てくるようになった。保険会社などが遺言の執行と合わせて、こうしたサービスを行っているようなものはないが、難病での闘病生活をおくった人のドキュメントやさまざまな公益的で共有すべき内容を持ったもの(人権、環境、社会問題、女性、健康と福祉、情報公開、特殊な個人的体験など)、オンラインソフトウェアの開発サイトなどが、関係者によって保存、維持されている例はある。こうしたものには、Webサイトを保存しているものと、故人を追悼するためのものとが混在している。

著作権

ウェイバックマシンは米国著作権法フェアユース規定にもとづいてウェブアーカイブを構築している[5]。ウェイバックマシンは目的の性質上、フェアユースが成立することが明確であるため、2009年時点ではウェイバックマシンに対する著作権侵害訴訟が起こされたことはない[6]

Recall サーチエンジン

またInternet Archiveのデータベース的側面としては、現在の特定URLを必要とする形以外のアクセス方法として、2003年9月、Internet Archiveに保存されたウェブページ全体を対象にした検索エンジン「Recall」のベータ版が公開された。検索した単語の頻度をグラフ化して表示する機能があり(2byte文字は未対応)、ネットワーク上の流行調査などに有益なものだったが、2004年9月中旬に停止した。これは「Recall」の開発者であったAnna Pattersonがプロジェクトから離れたためである。Internet Archiveのフォーラムでは新たな検索システムの構築を望む声が多くあがっており、動向が注目される。

アプリケーションプログラミングインタフェース

ウェイバックマシンはWebブラウザを使ったウェブアーカイブの閲覧だけでなく、アプリケーションプログラミングインタフェースも提供している[7]。2015年時点では、

  • Wayback Availability JSON API
  • Memento API
  • Wayback CDX Server API

がある。

コレクション

動画、書籍、録音の多くがパブリックドメインにあるか、クリエイティブ・コモンズのライセンスで提供されている。音楽部門には、コンサートでの演奏の録音を許可しているアーティスト演奏家グレイトフル・デッドストリング・チーズ・インシデントトード・ザ・ウェット・スプロケット311fugaziなど)による音源とともに、独立系ミュージシャンの音源も数多く含まれている。

オープンライブラリ

インターネットアーカイブはオープン・ライブラリの運営も行っている。ここではいくつかのスキャンしたパブリックドメイン書籍が容易に閲覧、印刷ができる形式で入手可能である。

動画像コレクション

商用映画に加え、動画像コレクションには以下のようなものがある。

ニュース映画コレクション、昔のアニメ(カートゥーン)コレクション、戦争映画・反戦映画などのプロパガンダコレクション、Skip ElsheimerによるA/V Geekコレクション、プレリンガー・アーカイブズによる短編ものコレクション(広告用、教育用、工業用などや家庭用の動画コレクション)

ブリックフィルムコレクションにはレゴによるストップモーション・アニメーションがあり、中には映画のリメイクものをしているものもある。Election 2004 (2004年選挙)コレクションは、2004年アメリカ合衆国大統領選挙に関連する動画資料を中立の立場からまとめた資料である。Independent NewsコレクションにはインターネットアーカイブのWorld At War competition from 2001(歴史的事物へのアクセスの重要性を示すための短編映画コンテスト)のようなサブコレクションもある。最もダウンロードされたビデオファイルは、2004年のスマトラ島沖地震の惨禍をとらえたものとなっている。

インターネットアーカイブには以下のような映画が1,500本前後存在する:

en:Special:WhatLinksHere/Template:Internet_Archive_film (英語)を参照。

論争

サイエントロジーサイト

2002年後半に、インターネットアーカイブはサイエントロジーの批判サイトをいくつもウェイバックマシンから削除した[8]。ウェイバックマシンのエラーメッセージには、この削除は「サイトオーナーの要望による」との文言が載せられていたが[9]、後に明らかになったところによればサイエントロジー教会の弁護士が削除を要求したものであった。この削除要求の法的根拠は不明であり、実際のサイトオーナー自身が削除を要求したものではなかった[10]

アーカイブ内のウェブページの証拠能力

2004年10月の「ポーランド・テレビ・SA社 対 エコースター・サテライト社」の裁判において、ウェイバックマシンのアーカイブが法的証拠の情報源として使われた。ポーランド・テレビはポーランドのテレビ局TVPポロニア (TVP Polonia) の提供元であり、エコースター・サテライトはアメリカの衛星テレビ放送ネットワークである、ディッシュ・ネットワークの運営元である。裁判の過程で、エコースター社はテレウジャ・ポルスカ社のウェブサイトの過去の内容の証拠として、ウェイバックマシンのスナップショットをあげた。テレウジャ・ポルスカ社は、伝聞および非公式情報に基づくものとしてやめさせようとしたものの、下級審判事のアーランダー・ケイズは、スナップショットを伝聞とするテレウジャ・ポルスカ社の主張を退け、インターネットアーカイブ社従業員による宣誓供述をスナップショットの信頼性を保証するものとして採用した。

グレイトフル・デッド

2005年11月、グレイトフル・デッドのコンサートの模様を収録した資料の無料ダウンロードが削除された。ニューヨーク・タイムズ紙の報道によれば、ジョン・ペリー・バーロウはこの変化の原因として、ボブ・ウィアーミッキー・ハートビル・クロイツマンのバンドの元メンバー3名の名を挙げた[11]。元メンバーのフィル・レッシュは2005年11月30日付けでこの削除について個人サイト上でコメントを出した[12]:

グレイトフル・デッドのショーの全てが感謝祭前にArchive.orgから消えたのが気になった。私はこの決定に関与していないが、これら資料の引き上げについて聞かされていなかった。私はこの音源こそがグレイトフル・デッドの伝説であると信じているし、これらが求める人全ての手に入ることを望む。

ブリュースター・カールが11月30日にフォーラムへ投稿し、「観客による録音資料はダウンロードもしくはストリーム配信可能である。しかしながら、ミキサーでの録音資料はストリーム配信にのみ限られる。」とのバンドメンバーとの合意に達した内容をまとめた[13]

インドからのアクセス遮断

画像外部リンク
[1] - インドの携帯電話通信会社であるバーティ・エアテルからインターネットアーカイブにアクセスしたときの画面。「あなたのリクエストしたURLは、インド政府の電気通信局からの命令に基づきブロックされています」と書かれている。

2017年8月から、インド国内からのインターネットアーカイブへのアクセスが禁止された[14]。インドの映画製作会社2社が、映画の著作権侵害防止のために2,500超のウェブサイトへのアクセス遮断を訴える裁判を起こしており、その中にはインターネットアーカイブも含まれていた[14]。インド、チェンナイにあるマドラス高等裁判所English版は、8月2日にこれらの申し立てを認めている[14]。インターネットアーカイブ側はブロックした電気通信局English版と連絡を取ろうとしているが、返答がない[15]

ホスティング環境

ネット上のすべてのデータを収拾するサイトである性格上、そのホスティング環境は巨大なものである。2009年まではHDD4台を搭載した800台のLinuxクラスターで運用していたが、2009年春にサン・マイクロシステムズのSun Fire X4500 63台のクラスターに変更された。OSはSolaris10で、1台あたり1テラバイトHDDを48台搭載(=総計3ペタバイト)、ファイルシステムZFSを採用していた。施設には専用のSun Modular Datacenterを使用していて、全データが輸送用コンテナひとつに収まっていた[16]。これはその後次第にPetaboxと呼ばれる独自設計のラックマウント型Linuxサーバークラスターに置き換えられ、現在はPetaboxの第二世代が稼働中である[17]。カリフォルニアベイエリアに3つのデータセンター拠点を持つ。

脚注

注釈

  1. 中黒を入れた「インターネット・アーカイブ」という表記も見られるほか、日本語でも「Internet Archive」と表記することもある。たとえば、ともに国際インターネット保存コンソーシアムに加盟している国立国会図書館による紹介では表題では「Internet Archive」、本文では「インターネットアーカイブ」と表記しており、本文冒頭で "Internet Archive" を併記している[2]。また、同じく国立国会図書館による国際インターネット保存コンソーシアムの紹介では「インターネットアーカイブ」、「インターネット・アーカイブ」の両表記が混在している[3]
  2. 2.0 2.1 国立国会図書館による紹介ではカナ表記は使用しておらず、「Wayback Machine」と表記している[2]

出典

  1. archive.org Site Overview”. . 2016閲覧.
  2. 2.0 2.1 Internet Archive “Wayback Machine””. インターネット資料収集保存事業. 国立国会図書館 (2016年11月22日). . 2017閲覧.
  3. International Internet Preservation Consortium (IIPC)”. インターネット資料収集保存事業. 国立国会図書館 (2013年1月29日). . 2017閲覧.
  4. http://blog.archive.org/2012/10/26/10000000000000000-bytes-archived/
  5. nternet Archive “Wayback Machine””. 国立国会図書館インターネット資料収集保存事業. 国立国会図書館 (2016年11月22日). 2017年9月24日時点のオリジナルよりアーカイブ。. 2017閲覧.
  6. 城所岩生 (2009年10月26日). “国家戦略の視点でフェアユース導入議論を”. 日経デジタル. 日本経済新聞社. 2017年9月24日時点のオリジナルよりアーカイブ。. 2017閲覧.
  7. Wayback Machine APIs
  8. CNETの記事
  9. archive.orgのフォーラムへの投稿
  10. LawMemeの記事
  11. Wrath of Deadheads stalls Web crackdown, ニューヨーク・タイムズの記事 (インターナショナル・ヘラルド・トリビューンサイト内)
  12. Phil Lesh's Hotline, 論争に対する2005年11月30日付コメント
  13. Good News and an Apology: GD on the Internet Archive, ブリュースター・ケールによるarchive.org内のフォーラムへの投稿
  14. 14.0 14.1 14.2 Leo Kelion (2017年8月9日). “Bollywood blocks the Internet Archive”. BBC News (BBC). http://www.bbc.com/news/technology-40875528 . 2017-9-24閲覧. 
  15. “The 'Internet Archive' was blocked on orders from Madras High Court”. tech2 (Firstpost). (2017年8月11日). http://www.firstpost.com/tech/news-analysis/the-internet-archive-was-blocked-on-orders-from-madras-high-court-archive-questions-the-order-3919991.html . 2017-9-24閲覧. 
  16. http://arstechnica.com/web/news/2009/03/sun-puts-internet-archive-in-a-box-but-will-it-stay-there.ars
  17. https://archive.org/web/petabox.php

関連項目

外部リンク