White scenery @showyou, hatena

If you have any comments, you may also send twitter @shsub or @showyou.

第16回データマイニング&Web勉強会に参加しました

http://d.hatena.ne.jp/hamadakoichi/20111127/p1

参加してきました!
元々Kafkaに興味があったので聞きにきました。HadoopというよりRabbitQueueとかの一体化したパッケージという感じでした。この辺り少し試してみたいです。


2とか4の話は、業務に結構役立ちそうだと感じました。具体的には言えませんがw


ログ

1.Kafka(@yanaoki)
 大規模リアルタイム処理
 Facebook Insights
 Google Analytics
   UUの計算をリアルタイムで出すのが早い!
 Twitter Web Analytics
   Linkedin
     解析基盤Kafkaを開発
        運用監視
        リアルタイムに検索結果に反映
       
  Q:KafkaやStormはHadoopの上で動いているの?
  A:Hadoopは使っていない

     モデル。Producer, Kafka, Consumerとある。
  Flume, Scribeと違ってフロントからバックエンドに押し出すわけじゃなく、ProducerからKafkaに押し込み、Consumerは自分で取りに行く

    メッセージング設計
    Pub/Subメッセージングモデル    -> 応答性能が本来悪いがKafkaではコンシュマーが持つことでパフォーマンスを持つ

    分散に関する設計
     ・ロードバランサ
   プロデューサ/ブローカー間 パーティションで決める
   ブローカー/コンシュマー間 ZooKeeperが持つ接続情報
  ・コンシュマーグループ機能
   各コンシュマーグループに1つずつデータを投げる
                  実際にデータを用意して流れを説明するのは分かりやすい

     Q:プロデューサからKafkaに対し流すメッセージは冗長化されるのか?→されない
     Hadoopとかの対抗というより、RabbitMQの代わりと思ったほうがよい

     実験 KafkaでPumaみたいのを実験
  Twitterのログからja, enでHBASEにインクリメントする
   HBASEはEC2?いくら掛かるんだろう?
     Hadoopとの連携
  可能

     Q:データはいつまで蓄積されるのか?>expired timeが設定できる


ToDo: HBASEマシン欲しいなぁ。->今回用意したのはsmallx2. smallがっつり回すと3000円くらい。largeだと10000円くらい
自分でHDD5台用意すべきか?


2. データマイニング現場24時(kan_yukiko)
 ALBERTのデータマイニング現場の紹介
       レコメンドエンジンのチューニング、データ分析
  顧客からの分析依頼対応

   独自アルゴリズム作成コンサルティング
   Q:大規模はどのくらい? 現商品80万件 100万件
   ユーザ規模:4-500万人

   広告配信最適化のためのデータマイニング
   試行錯誤の連続

 データマイニングのひらめきを得るには
 1.分析課題に対する理解を深める
 2.分析手法に対する理解
 3.結果に対する理解

 形式を大胆に変える
  1/0データ <-> n/0データ
    非階層型クラスター分析では大きな違いが出ることがある
    大胆に変える
  商品ID→カテゴリ、テイスト、ブランドに分けて共起スコアの高いものを出す
 Color Taste Brand


 ALBERTの分析事例
   購入金額で顧客が買ってるカテゴリを推定
   買いたいタイミングを予測
   どんなカテゴリで商品を買って優良顧客になったか分析する
   推薦すべきカテゴリとそのタイミング
       長期間買わないものと短期間買うものを判別
 
   データマイニングはビジネスになるか?→Yes
       データはあるが分析ができない
   データ量が多すぎる/分析者が居ない/小難しそう
    →顧客分析、商品分析レポート
   分析結果からのアクションが思いつかない
    分析しただけで満足→分析結果の満足
     分析負荷が高い
     →ソリューション提供
      ソーシャル系は多いがソーシャルゲーム系はいない

   どういう時に施策に生かされやすいか
  実際に動く部門と一緒に動くのがいい


3.機械学習を使った英語習熟度の推定@langstat
 英語習熟度の判定の現状と課題
 日本人学習者の英作文のマイニング→習熟度の推定、日本人とネイティブの差の分析

   習熟度の推定ができない
 統一的な基準がない
 統計モデルもない
   学習者コーパス
  学習者が実際に算出したコーパス。習熟度別に言語の変更を見る
   Hylandのメタ談話標識
 分類方法:ランダムフォレスト
 1) 精度が高い
   2) 結果がわかりやすい
    Q:SVMはKernelにRBF使ったか? 使ったほうが性能あがるのでは?
  A:メモリ足りなかった 

   Q: 間違った20%での中でいい情報はあったか? 分野が違うと用法が異なってくる
   Q: 回帰させれば5段階だせるのでは?


4.売上予測のテキストからの分析@stakemura
    大本[Mishene 05]Blogから映画の売上の予測
 [Tumasjan 10],[Bolle 10], [Zhang 10] Twitterからの売上予測
    Q:ドロリッチや花王の不買運動は予測できたのか?
 Appleのレーティングから評価と売上の比較
 →ずっと売れてるタイトルは高い評価
  だが、評価が高いからといって売れ続けるとは限らない。

 評判分析アプローチ
      SentiWordNet converter

 分析方法
  1.教師あり機械学習
  Luceneから始めるのがおすすめ
      BM25でストップワードを検出した
      Naive Bayes vs 最大エントロピー ->後者の方がいい

 Q:テキストマイニングはどのタイミングでかけると効果的だろうか?