White scenery @showyou, hatena

If you have any comments, you may also send twitter @shsub or @showyou.

データ分析の記事を読むときに気をつけること

きのこの山」VS.「たけのこの里」戦争に決着!? 購買データ分析で“大差”あり http://www.itmedia.co.jp/news/articles/1402/04/news016.html

まずはじめに、自分のことを書いときます。自分は分析向けインフラやってますが分析自体特化してないので若干専門からずれた話になるかもしれません。あときのこ派です。

それは置いといて、上の記事を自分が読んだ時は、次のとこを見に行きました。

  • 分析対象のソース:RecoRecoのレシート
  • 期間
  • 対象レシート数:1万強

以上の範囲の中で出た結果が上の記事の内容なので、「RecoReco使ってるユーザにたまたまたけのこ派が多いんじゃないの?」というツッコミは当然出てきます。実際の売上は明治に直接問い合わせるのがいいんじゃないでしょうか。もちろん今回の記事では「RecoReco調べ」と書いてるので分析の発表自体がインチキってわけではないと思います。

それよりちょっと気になったのは、地域や年齢層でのユーザ分布がないんですよね。地域に関してはどこもあんまり差がないのでそんな問題にならないんですが、年齢層の方は以下の邪推もできます。

「30代では1:2でたけのこ有利、40代では1:1で拮抗となっているが、実はユーザの実数は以下のとおりであった。

30代 500人:1500人, 40代 500人:500人」

・・こう見ると、分布としては拮抗してるけども、40代でたけのこ買ってる人は30代より大幅に少ないってなりませんかね?

これは極端な例ですが、実は次の「大人の~」のグラフを見ると、(それまでの分析が通常のきのこたけのこだと仮定した場合)、20代までと30代以降で人数比が同数であることがわかります。なので今回の調査は実は20代までの志向が影響されやすいことがわかります。

---

ところで本件とは真逆っぽいことが、近々東京で行われます。都知事選挙です。東京の場合は世代ごとの人口構造がそれほど偏ってないようなので(http://www.toukei.metro.tokyo.jp/juukiy/2012/jy12qf0001.pdf)各世代の傾向が均一して反映されそうです。でも高齢化が進んでるとこだと20代の投票志向が選挙に与える影響が60代~の投票志向に比べて誤差にしかならないです。

眠いので中断。