第16回データマイニング＆Web勉強会に参加しました

http://d.hatena.ne.jp/hamadakoichi/20111127/p1

参加してきました！
元々Kafkaに興味があったので聞きにきました。HadoopというよりRabbitQueueとかの一体化したパッケージという感じでした。この辺り少し試してみたいです。

2とか4の話は、業務に結構役立ちそうだと感じました。具体的には言えませんがw

ログ

1.Kafka(@yanaoki)
 大規模リアルタイム処理
　Facebook Insights
　Google Analytics
  　UUの計算をリアルタイムで出すのが早い！
　Twitter Web Analytics
   Linkedin
     解析基盤Kafkaを開発
        運用監視
        リアルタイムに検索結果に反映
       
　　Q：KafkaやStormはHadoopの上で動いているの？
　　A：Hadoopは使っていない

     モデル。Producer, Kafka, Consumerとある。
　　Flume, Scribeと違ってフロントからバックエンドに押し出すわけじゃなく、ProducerからKafkaに押し込み、Consumerは自分で取りに行く

    メッセージング設計
　   Pub/Subメッセージングモデル    -> 応答性能が本来悪いがKafkaではコンシュマーが持つことでパフォーマンスを持つ

    分散に関する設計
    　・ロードバランサ
　　　プロデューサ/ブローカー間　パーティションで決める
　　　ブローカー/コンシュマー間　ZooKeeperが持つ接続情報
　　・コンシュマーグループ機能
　　　各コンシュマーグループに1つずつデータを投げる
                  実際にデータを用意して流れを説明するのは分かりやすい

     Q:プロデューサからKafkaに対し流すメッセージは冗長化されるのか？→されない
     Hadoopとかの対抗というより、RabbitMQの代わりと思ったほうがよい

     実験 KafkaでPumaみたいのを実験
　　Twitterのログからja, enでHBASEにインクリメントする
　　　HBASEはEC2?いくら掛かるんだろう？
     Hadoopとの連携
　　可能

     Q:データはいつまで蓄積されるのか？>expired timeが設定できる


ToDo: HBASEマシン欲しいなぁ。->今回用意したのはsmallx2. smallがっつり回すと3000円くらい。largeだと10000円くらい
自分でHDD5台用意すべきか？


2. データマイニング現場24時(kan_yukiko)
　ALBERTのデータマイニング現場の紹介
       レコメンドエンジンのチューニング、データ分析
　　顧客からの分析依頼対応

   独自アルゴリズム作成コンサルティング
   Q:大規模はどのくらい？　現商品80万件 100万件
   ユーザ規模：4-500万人

   広告配信最適化のためのデータマイニング
   試行錯誤の連続

　データマイニングのひらめきを得るには
　１．分析課題に対する理解を深める
　２．分析手法に対する理解
　３．結果に対する理解

　形式を大胆に変える
　　1/0データ <-> n/0データ
   　非階層型クラスター分析では大きな違いが出ることがある
    大胆に変える
　　商品ID→カテゴリ、テイスト、ブランドに分けて共起スコアの高いものを出す
　Color Taste Brand


　ALBERTの分析事例
   購入金額で顧客が買ってるカテゴリを推定
   買いたいタイミングを予測
   どんなカテゴリで商品を買って優良顧客になったか分析する
   推薦すべきカテゴリとそのタイミング
       長期間買わないものと短期間買うものを判別
　
   データマイニングはビジネスになるか？→Yes
       データはあるが分析ができない
　　　データ量が多すぎる/分析者が居ない/小難しそう
　　　　→顧客分析、商品分析レポート
　　　分析結果からのアクションが思いつかない
　　　　分析しただけで満足→分析結果の満足
   　　分析負荷が高い
 　　　　→ソリューション提供
      ソーシャル系は多いがソーシャルゲーム系はいない

   どういう時に施策に生かされやすいか
　　実際に動く部門と一緒に動くのがいい


3.機械学習を使った英語習熟度の推定@langstat
　英語習熟度の判定の現状と課題
　日本人学習者の英作文のマイニング→習熟度の推定、日本人とネイティブの差の分析

   習熟度の推定ができない
　統一的な基準がない
　統計モデルもない
   学習者コーパス
　　学習者が実際に算出したコーパス。習熟度別に言語の変更を見る
   Hylandのメタ談話標識
　分類方法：ランダムフォレスト
　1) 精度が高い
   2) 結果がわかりやすい
    Q:SVMはKernelにRBF使ったか？　使ったほうが性能あがるのでは？
　 A:メモリ足りなかった 

   Q: 間違った20%での中でいい情報はあったか？ 分野が違うと用法が異なってくる
   Q: 回帰させれば5段階だせるのでは？


4.売上予測のテキストからの分析@stakemura
    大本[Mishene 05]Blogから映画の売上の予測
　[Tumasjan 10],[Bolle 10], [Zhang 10] Twitterからの売上予測
    Q:ドロリッチや花王の不買運動は予測できたのか？
　Appleのレーティングから評価と売上の比較
　→ずっと売れてるタイトルは高い評価
　　だが、評価が高いからといって売れ続けるとは限らない。

　評判分析アプローチ
      SentiWordNet converter

　分析方法
　　１．教師あり機械学習
　　Luceneから始めるのがおすすめ
      BM25でストップワードを検出した
      Naive Bayes vs 最大エントロピー　->後者の方がいい

　Q:テキストマイニングはどのタイミングでかけると効果的だろうか？

White scenery @showyou, hatena

If you have any comments, you may also send twitter @shsub or @showyou.

第16回データマイニング＆Web勉強会に参加しました