White scenery @showyou, hatena

If you have any comments, you may also send twitter @shsub or @showyou.

ビッグデータ=個人情報ではないです

非常にしょうもないエントリなんですが、NHKとかでどっかの教授(兼どっかの取締役)が非常に誤解を招くようなことを言ってたらしいので書いときます。

まずそもそも「ビッグデータ」って単語ですが、でかいデータを扱ってる技術者から見ても何を指してるのかあやふやです。この単語連発してるのはコンサルでスーツな方が多いんじゃないでしょうか。

ビッグデータを敢えて定義するなら、「マシン1台〜数台で処理しようとすると無茶苦茶時間かかって使えないくらいのデータ」でしょうか。

ちなみにビッグデータだとHadoopが有名ですが、Hadoopビッグデータでも無いと思います。Hadoop(のコアに当たるmap-reduce)は大量のデータを小刻みに分割して何千台ものマシンに送り込んで結果をまとめる、分散処理ソフトです。別の処理ソフトで大量のデータ扱えるならそのソフトもビッグデータ用のソフトといえるでしょう。(jubatasあたりもですかね)

ビッグデータの使い道だとてっとり早く思い浮かばれるのが「データマイニング」とかがあります。これも定義がぶれてる感じがありますが、主に「大量のデータから"潜在する"データを見つける」のがデータマイニングだと思っています。例えば購買情報であれば、「ビールを買っている人は、ビールを買ってない人に比べておむつを買う"確率が高い"」とかでしょうか。この分析をするのに、「何人が買ったか」という情報は要りますが、「誰が買ったか」という情報は必要ありません。もしかしたら人によっては「過去のAさんの購買履歴から、Aさんにダイレクトメールを送る」なのをデータマイニングと呼ぶかもしれません。ここでも重要なのはAさんが誰かってよりも、何を買ったかが重要なのですが・・データマイニング自体はビッグデータじゃなくても、Excelとかに乗るサイズでも可能です。マイニング用のツールとかも出てます。

一方ビッグデータには他の使い方もあります。例えばコンビニの売上情報の集計とかでしょうか。一箇所の売上の集計ならばデータも少なく比較的楽ですが、全国の店舗のデータを一箇所に集めてすぐ合計を出そうとするとデータが多く大変なことになります。こういった問題もビッグデータの一つじゃないでしょうか。

なので、

のであって、ビッグデータに携わってる人々が全て個人情報利用するわけじゃないです。