トップページサイトマップEnglish - 英語用サイトへ使用方法へ
ネットの仕組み
ネットの仕組み
日頃何気なく使っている「検索エンジン」。
難しそうな言葉ですが、これはGoogleYahoo!などを始めた検索サイトの中に潜む仕組みのことを指しています。
検索エンジンは会社によって全く違うことをご存知でしょうか?
この膨大な世界中のウェブサイトの中、どのようにして私達が見たいと考えているページを直ぐ見つけてくれるのでしょうか?
僅か0.3秒ほどで調べてしまう検索エンジンの代表として、「Google」と「Yahoo!」を例に取って紹介致しましょう!

Googleの場合

Googleの解説画像(クリックして拡大)
Googleトップページ 蜘蛛の巣状に広がる世界
図1-1:Googleトップページ
図1-2:蜘蛛の巣状に広がる世界

情報収集の方法

Googleの最大の工夫、それこそがウェブ・クローラーと呼ばれるものです。
これは簡単に説明するとウェブサイトの情報を自動で収集する仕組みということになり、Googleはオリジナルのウェブ・クローラーであるGooglebotを使用しています。
このGooglebotの最大の特徴は爆発的に増加し続けるウェブサイトの情報を素早く反映できるということです。 また、このGooglebotはスパイダーとも呼ばれており、その名前の由来はサイトの情報収集の仕方にあるのです。
ページ内には大抵の場合、このようなリンクと呼ばれる他のページとを結ぶ役目のある道が存在します。
それらを調査していくことで、最終的にはなるべく多くのウェブページを調査しようというものです。(図1-2参照)
また、既に登録・情報収集されたページも何度も調査し、サイトが消えたりなどの変更点も調査しています。 このようにして集めたサイト情報をインデックスファイルと呼ばれるものにまとめます。
これで一連の情報収集作業は終了です。

検索の仕組み

沢山のサイト情報があったとしても、それが活用できなければ宝の持ち腐れになってしまいます。
しかし、どの検索エンジンもその情報を実に活用しています。 では、Googleの場合はどのようにして活用しているのでしょうか?見て行きましょう。

1.「単語」で探す

ここで先ほど作られたされたインデックスファイルの出番となります。 このインデックスファイルの中から、私達が探したい単語が入っているサイトを一気に探し出します。
しかし、先日10億件を超えたと報道されたウェブサイトの数。
調べたい単語だけだと、膨大な数が見つかってしまいます。これでは、本当に調べたいサイトが見つかりません。どうすればよいのでしょうか?

2.更に解析してより良い結果を出す

さて、この膨大な量のサイトから、必要な分を取り出すにはどうすればよいのでしょうか?
ここで、Googleの本領発揮です。
Googleでは、事前に設定された基準に基いて他の人の評価閲覧数公開された時期画像や動画の有無など200点以上で評価を行い、より良い検索結果を返せるように工夫しています。

このような様々な調査の工程を経て、0.3秒もの速度で検索結果が表示されるのです。

Yahoo!の場合

Yahoo!の解説画像(クリックして拡大)
Yahoo!Japanトップページ 枝上に広がるディレクトリ型
図2-1:Yahoo!Japanトップページ
図2-2:枝上に広がるディレクトリ型
Yahoo!ではハイブリッド検索エンジンというシステムを採用しています。
これはgoogleを代表とするようなロボット型検索エンジンにディレクトリ型検索エンジンというものを追加したものです。
ディレクトリ型は、ロボットが調査するのとは対照的に人力で調査・確認をしていくのです。
そのような苦労のおかげで、ウェブ・クローラーでは出来ない様な細かい分類までもが可能になっています。
実は、このディレクトリ型は木の枝状に分類されていて、先端に行くほどより細かく特定されたジャンルがになっています。(図2-2参考)
しかし、爆発的に増えるサイトの一方、人力にも限界があります。そのため、ウェブ・クローラーの助けを借りています。
この人力で分類するディレクトリ型とロボットが自分で調べるウェブ・クローラーの両方を駆使しているため、「異種を組み合わせたもの」という意味の言葉、「ハイブリッド」を使ってハイブリッド検索エンジンと呼ばれているわけです。
※2005年10月よりウェブ・クローラー主体の調査に切り替わりました。
Bくん日常的にもよく使う検索サイトにもこんなにも隠れた技術があったんだね!
Aくん今はディレクトリ型検索エンジンは主流ではなくなっているけど、未だにGooInfoseekなどが取り入れてるよ!
戻る次へ