White scenery @showyou, hatena

If you have any comments, you may also send twitter @shsub or @showyou.

会社にHadoopを入れて、適切に使いこなすための方法

既に導入実績のある会社に転職する


・・は身も蓋も無いので少しまじめに考えますと、Hadoopを入れようと思った場合、上司には2パターンの問題が出てきます。


1. 「Excelと何が違うの?」という上司
2. 「Hadoop最強!なんでもできるよ!」と過剰な期待を持ってる上司

Excelと何が違うの?という上司

計算時間の違いを説明するといいんじゃないでしょうか。まあ計算時間の説明するならその前にスクリプト言語が出てきそうですが。単発マシンだとどうしても処理できる件数に天井が出てくるので、その辺のデータがあればいいです(GB単位?メモリに乗らないレベル)。ところで最近は普通のマシンでも32GBくらい2万で積めますね。


それと、一般にはあまり知られてないかもしれませんがBIツールを使うのも手かもしれません。


そもそも扱ってるデータ量がHadoopを必要としないのかもしれません。その場合は大量データを扱ってる会社に転職しましょう。

Hadoop最強!なんでもできるよ!」と過剰な期待を持ってる上司

上の上司よりタチが悪いです。自分も詳しくないですが、少なくとも並列で回せるものほど早く、Map->Suffle->Reduce->Mapを繰り返すとものすごく遅いでしょう。できることとできないことをHadoopの原理でも交えて説明したほうがいいと思います。用途によってはJubatusなんかがMap繰り返すやつよりでは早いのかもしれません。まだ開発中だけど。


それでも無理やりHadoopをねじ込もうとするかもしれません。そんな会社長くないんで転職しましょう。転職先とか下の広告に載ってそうですね。


それか、もしくはid:shiumachiせんせーにお願いすると説明とか行ってくれるかもしれません。


余談ですが、別に自分も軽くHadoop触ってる程度ですが、今のビッグデータの騒ぎ方が若干数年前のクラウドとおんなじような感じで変な印象をもちます。
ビッグデータ扱えてよろこぶ→扱いきれずにへこたれるっていう世界がもうすぐやってきそうです。