ビックデータと統計学
まず、BIGDATAとは何なのでしょう。それは、インターネットの普及とIT技術の進化によって生まれた、これまで以上に
大容量で多様なデータを扱う新たな仕組みのことをいいます。
また、BIGDATAには4つの特徴があります。
まず1つ目のビッグデータの特長はその
容量(Volume)の巨大さです。IT社会が発達した昨今ではさまざまなデータが溢れており、それは
数テラバイトから数ペタバイトにもおよぶ巨大なものなのです。またデータが増大すれば
計算量も非常に膨大となってしまうのです。
2つ目は
種類(Variety)です。ビッグデータは
構成するデータの出所が多様であるのです。また、テキスト、音声、ビデオ、クリックストリーム、ログファイル等の
さまざまな種類のデータも存在しそれらもビックデータとして扱われるのです。
3つ目は
頻度・スピード(Velocity)です。たった数秒の間にも、ものすごい頻度でICタグやセンサーからデータが生成されています。昨今の変化の著しい市場環境では、これらの
データによりリアルタイムに対応することが求められてきています。
4つ目は
正確さ(Veracity)です。データの矛盾、曖昧さによる不確実性、近似値を積み重ねた不正確さなどを排除して、
本当に信頼できるデータによる意思決定が重要です。そのデータは
無作為抽出(サンプリング)ではなく全部を調べなくてはならないのです。
それに対し、本来統計分析の学問というのは、
母集団が大きいとき、いかにデータを少なくしても、有る程度の精度を保って、母集団の値に近いものが出せるかという発想にいかに少ないサンプリング数で全体を捉えるかを乱数などを使って、追究したものなのです。たとえば、テレビの視聴率調査で統計学が使われ、わずかなサンプリング数で日本全国の状況を把握しているのです。目的さえ明確であれば、必ずしも大量のデータはいらない、それが統計学なのです。
つまり、統計学を突き進めると、ビッグデータの思想自体を否定してしまうのです。なので統計学の分野から、
技術を借用することは可能なのですが、統計学の分野から、
その根本的な思想は借りてきたり、敷延したりすることは出来ません。