ビッグデータ
世の中にはどんなデータがあるんですか?
いろいろな種類のデータがあるから説明するのは難しいな...そうだ!ビッグデータは知っているか?
ビッグデータ?何それ?
社会の中でのデータはビッグデータが基盤となっているんだ。では説明していこう。
ビッグデータ
コンピュータやインターネット、人工知能などの技術が発達したことによって私たちはそれらと生活を共にする情報社会が進展してきた。そのため、膨大であり、多様なデータ、いわゆるビックデータが形成されてきた。ビックデータは2001年にアメリカの調査会社METAグループ(現ガートナー社)のアナリスト、ダグ・レイニー氏がビッグデータの特徴として「Volume(量)、Variety(多様性)、Velocity(速度あるいは頻度)」の”3つのV”を述べている。
それでは、3つのVを説明していくぞ。
Volume
近年、データは数え切れないほど膨大な量がある。実際、JEITA テープストレージ専門委員会ではこのようなことを述べている。
一般社団法人 電子情報技術産業協会(JEITA) テープストレージ専門委員会:デジタルデータの増加は止まらない
このようにデジタルデータ量は2010 年に世界に存在したデジタルデータ量は約 1 ゼタ(10 の 21 乗)バ イトだが2025 年には約 180 ゼタバイトになる。
ん?ゼタバイト?どのくらい?
ゼタバイトは1021バイトだね。まぁギガにすると1兆ギガバイトだね。
ということは...180兆ギガバイト!?そんなデータを保存できるの!?
もちろん。そのためにデータベースがあるんだ。
データベース
数え切れないデータの中から特定のデータが欲しいとき、パソコンでも時間がかかってしまう。例えば、部屋の中をネットワークと考えると多くの本があるだろう。これが散らかった状態だと欲しいものがあっても探すのに時間がかかるだろう。しかし、本棚があればどうだろうか?散らかった本は綺麗に整頓され、探しやすくなる。パソコンも同じように時間がかからずにデータを取り出したいのだ。そこでデータベースの登場だ。データベースは多くのデータを保管するだけでなく、編集や抽出、共有が出来るのだ。つまり、データベースはネットワーク上の本棚だろう。このようにデータベースを使うことで簡単にデータを取り出すことが出来る。
Variety
ネットワークの中にあるデータの形式には様々な種類がある。それらは構造化データや非構造化データに分けられており、構造化データはExcelやGoogleスプレッドシートなどの表計算ソフトウェアでまとめられている。
①構造化データ
データが表計算ソフトウェアを用いて整理されている。表計算ソフトウェアは主にxlsx形式で保存できるExcelやGoogleスプレッドシートが使用される。また、保存形式ではxlsx形式だけでなくCSV形式やXML形式などでも保存されている。しかし、構造化データは視覚的に分かりにくいため以下の図やグラフに整理されることが多い。
また、RDB(リレーショナルデータベース)を扱うSQL形式も構造化データである。RDBは列と行の表であり、複数の表を共通する項目で結び付けて表示する結合、表示から条件に合う行を抽出する選択、表示から条件に合う列を抽出する射影をすることができる。
②非構造化データ
文字や画像のデータはデータの8割を占めているが、表現が複雑だったりするため活用することが困難であった。しかし、近年では人工知能などの発達によってテキストマイニングや画像認識をできるようになった。
テキストマイニングでは企業などがAIを使用して大量の文章のデータ(アンケートや商品レビューなど)を分析している。これによって、キーワードを抽出し、企業は効率良く商品のレビューを確認、また新たな取り組みがしやすくなる。他にも、迷惑メールの判別もテキストマイニングによって行われており、日常生活を快適なものにしている。
引用画像:AIテキストマイニング by ユーザーローカル
画像認識では機械が画像の特徴などを捉え、識別しており、多くの身近なモノに活用されている。例えば、商品には必ず付いているバーコードやセキュリティ面で活躍している顔認証システムなども実は特徴を捉えて識別している。最近ではAIに画像を学習させるディープラーニングが登場し、先ほど例に挙げた顔認証システムは勿論、未来の車に期待されている自動運転に使われたりする。
このように数値や文字、画像の整理や分析から新たな取り組みやシステムに活用しているのだ。
最後にVelocityについても説明しよう。
Velocity
Velocityは速度あるいは頻度の意味を示し、これはデータのリアルタイム性を表している。例えば、天気予報では約半日の頻度で気温や湿度などが更新され続けている。また、SNSのトレンドや投稿なども常時更新されている。つまり、ビッグデータではデータが常時更新される状態が特徴としてあるのだ。
引用データ:気象庁|過去の気象データ検索
ここまで見るとデータってこんなに身近な生活に使われていたんだ...
そうだぞ。データは生活に寄り添っているんだ。
- ①情報機器やネットワークの発達によってビッグデータが形成されてきた。
- ②ビッグデータにはVolume、Variety、Velocityの ”3つのV”が特徴としてある。