ビックデータと統計学

 まず、BIGDATAとは何なのでしょう。それは、インターネットの普及とIT技術の進化によって生まれた、これまで以上に大容量で多様なデータを扱う新たな仕組みのことをいいます。 また、BIGDATAには4つの特徴があります。

 まず1つ目のビッグデータの特長はその容量(Volume)の巨大さです。IT社会が発達した昨今ではさまざまなデータが溢れており、それは数テラバイトから数ペタバイトにもおよぶ巨大なものなのです。またデータが増大すれば計算量も非常に膨大となってしまうのです。

 2つ目は種類(Variety)です。ビッグデータは構成するデータの出所が多様であるのです。また、テキスト、音声、ビデオ、クリックストリーム、ログファイル等のさまざまな種類のデータも存在しそれらもビックデータとして扱われるのです。

 3つ目は頻度・スピード(Velocity)です。たった数秒の間にも、ものすごい頻度でICタグやセンサーからデータが生成されています。昨今の変化の著しい市場環境では、これらのデータによりリアルタイムに対応することが求められてきています。

 4つ目は正確さ(Veracity)です。データの矛盾、曖昧さによる不確実性、近似値を積み重ねた不正確さなどを排除して、本当に信頼できるデータによる意思決定が重要です。そのデータは無作為抽出(サンプリング)ではなく全部を調べなくてはならないのです。

 
 それに対し、本来統計分析の学問というのは、母集団が大きいとき、いかにデータを少なくしても、有る程度の精度を保って、母集団の値に近いものが出せるかという発想にいかに少ないサンプリング数で全体を捉えるかを乱数などを使って、追究したものなのです。たとえば、テレビの視聴率調査で統計学が使われ、わずかなサンプリング数で日本全国の状況を把握しているのです。目的さえ明確であれば、必ずしも大量のデータはいらない、それが統計学なのです。

 つまり、統計学を突き進めると、ビッグデータの思想自体を否定してしまうのです。なので統計学の分野から、技術を借用することは可能なのですが、統計学の分野から、その根本的な思想は借りてきたり、敷延したりすることは出来ません。