White scenery @showyou, hatena

If you have any comments, you may also send twitter @shsub or @showyou.

見える化あれこれ

先日のTokyoWebminingで、データマイニング関連で数値の見える化についてのアンカンファレンスがあり、そこでどんなものがあるかとかどんな使い分けすればいいか等の話があったので上げておきます。

f:id:showyou:20140501182242j:plain

図:チャート対象者と値段の関係(オンプレミス限定)

 

多分評価ポイントとしては、

  1. ソフトウェアのコスト
  2. チャート作成者のコスト(作成しやすさ)
  3. カスタマイズしやすさ
  4. バックエンドの柔軟性

あたりだと考えています。全てにおいて一番って解法はいまんとこないでしょう。

まずソフトウェアのコストですが、買ったり保守するときの値段になります。人数にもよりますが、安いのはOSS(図の赤いの), 高いのは数万~数百万(図の紺色)とかになります。

次にチャート作成者のコストですが、誰がチャートを作れそうかって話のことになります。図の右に行けば行くほど、GUIで操作するだけで作れるものになり、左の方は自力でゴリゴリソースを書く感じになります。

カスタマイズのしやすさですが、いろんなチャートを作れるか?という話になります。ここが少し面倒な話で、1,2と単純には関連してません。ソースでごりごりかけば何でもできます(が作成コストは当然あがる)し、高いツールでもいろいろな表現ができます。OSSのBIが一番カスタマイズしにくいかもしれません。また上の図に載せ忘れましたが、kibana + ElasticSearchあたりもOSSかつカスタマイズ性ほぼなし(固定)って選択肢もありますね。

1~3だけみると、実はExcel(or 互換品)とかもありなんじゃないって思います。ただ次の4番目の要素で結構辛くなります。

4つめのバックエンドの柔軟性ですが、チャートを表示するのに使えるDB, KVSは何かという話になります。Excelは(ODBCとか使うなら別として)普段65536行(2003まで)もしくは100万行(2008以降)という制限がでますし、そもそも動かしてるマシンで集計するので結構集計に時間がかかったりします。小規模ならいいですが大きくなると破綻します。一方で商用の分析ツールもしくはBIツールは、DBやMongo, Hive等との連携機能があります。メール配信とかRとかpythonとかJSは自前でソース書くわけですから好きなストレージ選べばいいでしょう。

 

今回は自社にサーバを立てるオンプレミス形式での話を書きましたが、クラウド上に載せるのであればGoogleのやつとかAmazonのやつとかTreasureDataとか使うって手もあるでしょう。

今回はここまで。

参考文献