日本のデータ解析界隈の溝について / hadoopアドベントカレンダー2012 #hadoopAC12jp
はじめに、先日Hadoop忘年会という大きな忘年会が浅草でありまして、その場で技術評論社の傳様から「はじめてのHadoop」という本をいただきました。この場を借りて御礼申し上げます。
CDH3だけでなくCDH4の設定、PigやHiveにも書かれているのでこれから入門される方の手元には象本(オライリー)や徹底入門と一緒に本棚に置くと便利だと思います。
----
あとこの文章は私的なものであり、会社とはなんら関わりがありません。
また憶測に基づくものであり、事実に反することもあるかと思うのでその際はご指摘ください。
日本において、大規模データの基盤構築や分析をするにあたり、大きな溝があります。先日のCloudera World Tokyoでも少し話がありましたが、データ解析の場では、分析する人と、基盤を用意する人で溝があるとは感じています。
基盤側はSQLサーバやHadoop、高速なインフラを用意します。一方で分析する人は分析ツールとしてSPSS,Excel等を使い、予測や結果分析などを行います。
両方がうまく噛みあうと、分析者が高速な、適したインフラを利用して分析を行うことができるでしょう。
ところが今の日本では、Hadoopを推す人としてSIerが多く、分析側はSPSS, Excelを使うに留まっている感じがします。前者だけあっても、大規模計算する動機付けが弱いです。大規模計算して何が嬉しくなるか説明できません。一方後者は理由付けは簡単にできますが、日々増えて行く膨大なデータに対して、1台のマシンでは処理しきれなくなっていきます。Excelは100万行以上扱えないしね。
例えばUSでは(Strataと同時開催だからなのもあるかもしれませんが)Hadoop Worldのいろいろなセッションで
データ解析+高度基盤が一体となって紹介されている感じがします(http://strataconf.com/stratany2012/public/schedule/grid/public, あくまで感じがするってだけなのですが。。。)。一方で日本のCloudera worldでは、基盤+分析な発表はB-1の大坪さんくらいの様に見えます。(http://www.cloudera.co.jp/jpevents/cloudera-world-tokyo/)
分析系のみだと統数研の発表や数理システムズさんのカンファレンスがあります。
あとこれは日本だけの問題じゃないのでしょうけど、ビッグデータに対処してるソフトウェアについて調べずに、魔法の道具としてソリューションばかり上げてるコンサルタントもいます。。。
---
自分はデータサイエンティストの定義をよく知らないですが、上の両者の架け橋となるような人がデータサイエンティストになるんじゃないかと考えています。
現状では、SIerだと導入先のドメイン知識(職人技)を知らないことが多く、また客先のデータの全てを見ることができないため、最適なソリューションを出すのは難しいです。一方でWeb系なんかだとデータを収集するのとデータを解析するのが同じ会社とか同じ部署だったりするので比較的データサイエンティストが動きやすいんじゃないのかと考えています。
じゃあデータサイエンティストがいないとこで両者つなぐにはいいのでしょう?また自分がSIerでお客さんにHadoopや大量データのシステムを提案したいときには?
一つの解としては、ゴールを用意して、ゴールのために両者何をすればいいか、すり合わせを行うというのがあるかと思います。
(ただしヘタすると両者から板挟みに会いますが・・)
参考資料
データサイエンティストとは?
http://www.slideshare.net/BrainPad/ss-15528034
データサイエンティストの作り方