あなたが知らない「ディープ」なウェブの世界

ウェブの「深部」には違法サイトなども多いという

2014.03.31 Mon posted at 18:13 JST

ニューヨーク(CNNMoney) 通常「ウェブ」と呼ばれているのは、実はほんの表層にすぎない。その下には「ディープ・ウェブ」とでも言うべき未知の深海が広がっている。

有力大学の研究者らによると、「フェイスブック」など人目に付きやすい交流サイトや、「ウィキペディア」などの情報サイト、ニュースサイトが、ワールド・ワイド・ウェブ(WWW)に占める割合は全体の1%にも満たないという。いわゆるネットサーフィンは文字通り深海の表面を漂っているだけだ。

より深く潜水した先には、まだ見ぬ無数のウェブページがあるが、ディープ・ウェブの概念自体は、ごく単純なものだ。

グーグルやヤフー、マイクロソフトの「ビング」のような検索エンジンは、絶えずウェブページを巡回、登録している(インデックス化)。インデックス化にあたっては、張りめぐらせた巣網の上をクモが移動するようにして、サイト間を結ぶリンクをたどっていくが、それでは静的ページしか収集できない。

オンライン・データベースに質問を入力した際に回答として生成されるような、動的ページを取りこぼしてしまう。

ディープ・ウェブの大半を占めるのはデータベース化された情報だ

動的ページの他にも、プライベートネットワーク上もしくはネットワーク圏外のウェブページについては、通常の検索エンジンでは捕捉できない。

これらがすべて相まって、ディープ・ウェブを形成しているのである。

では、このようなウェブの深部には何があるのか。順を追って見ていこう。

ディープ・ウェブの大半を占めるのはデータベース化された情報だ。入手可能な最新の統計である2001年の報告書によると、全ウェブサイトの54%はデータベースと推定されている。

公開されているデータベースとして最大規模のものは、米海洋大気局(NOAA)、米航空宇宙局(NASA)、米証券取引委員会(SEC)の検索システム「EDGAR」など。

次にくるのが、企業によって非公開にされているデータベースで、閲覧者に課金するものだ。公記録や判例などをデータベース化しているレクシスネクシスや、電子ジャーナルを扱うオランダの学術出版エルゼビア社のサイトなどが、これにあたる。

SNSやニュースサイト、検索エンジンが巡回するところは「表層」に過ぎない

続いて、ウェブページの13%を占めるのが、企業内や大学内などで使われるイントラネット上のページ。ここから掲示板や個人ファイル、産業用コントロールパネルなどにアクセスできる。

そして、インターネットの最暗部とでも言うべきなのが「Tor(トーア)」(The Onion Router)だ。

Torは疑似アドレス「.onion」を持つ秘密ウェブサイトの集合体であり、アクセスするには専用ソフトウエアが必要となる。世界中の様々なTor用コンピューターを何重にもリレー上に経由することで、ウェブ上での活動を秘匿できる。

Torは当初、匿名でオンライン通信を行うため、米海軍調査研究所のプロジェクトの一貫として2002年に始まった。反体制派の政治活動家が秘密裏にやり取りするために使うこともあるが、麻薬や違法ポルノ、海賊版メディアなどを販売したり配布したりする闇市場の拠点ともなっている。薬物違法売買の大手闇サイトとして摘発された「シルクロード」が有名だ。

このようなディープ・ウェブは人目には付きにくいが、経済的な重要性は増す一方だ。

大学などでは、ディープ・ウェブまでも含めたウェブの全領域をくまなく探せる検索エンジンの開発が進んでいる。ビッグデータの収集手段として、気象研究・金融・政府記録の分野でとりわけ重宝されるだろう。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。