第16回データマイニング&Web勉強会に参加しました
http://d.hatena.ne.jp/hamadakoichi/20111127/p1
参加してきました!
元々Kafkaに興味があったので聞きにきました。HadoopというよりRabbitQueueとかの一体化したパッケージという感じでした。この辺り少し試してみたいです。
2とか4の話は、業務に結構役立ちそうだと感じました。具体的には言えませんがw
ログ
1.Kafka(@yanaoki) 大規模リアルタイム処理 Facebook Insights Google Analytics UUの計算をリアルタイムで出すのが早い! Twitter Web Analytics Linkedin 解析基盤Kafkaを開発 運用監視 リアルタイムに検索結果に反映 Q:KafkaやStormはHadoopの上で動いているの? A:Hadoopは使っていない モデル。Producer, Kafka, Consumerとある。 Flume, Scribeと違ってフロントからバックエンドに押し出すわけじゃなく、ProducerからKafkaに押し込み、Consumerは自分で取りに行く メッセージング設計 Pub/Subメッセージングモデル -> 応答性能が本来悪いがKafkaではコンシュマーが持つことでパフォーマンスを持つ 分散に関する設計 ・ロードバランサ プロデューサ/ブローカー間 パーティションで決める ブローカー/コンシュマー間 ZooKeeperが持つ接続情報 ・コンシュマーグループ機能 各コンシュマーグループに1つずつデータを投げる 実際にデータを用意して流れを説明するのは分かりやすい Q:プロデューサからKafkaに対し流すメッセージは冗長化されるのか?→されない Hadoopとかの対抗というより、RabbitMQの代わりと思ったほうがよい 実験 KafkaでPumaみたいのを実験 Twitterのログからja, enでHBASEにインクリメントする HBASEはEC2?いくら掛かるんだろう? Hadoopとの連携 可能 Q:データはいつまで蓄積されるのか?>expired timeが設定できる ToDo: HBASEマシン欲しいなぁ。->今回用意したのはsmallx2. smallがっつり回すと3000円くらい。largeだと10000円くらい 自分でHDD5台用意すべきか? 2. データマイニング現場24時(kan_yukiko) ALBERTのデータマイニング現場の紹介 レコメンドエンジンのチューニング、データ分析 顧客からの分析依頼対応 独自アルゴリズム作成コンサルティング Q:大規模はどのくらい? 現商品80万件 100万件 ユーザ規模:4-500万人 広告配信最適化のためのデータマイニング 試行錯誤の連続 データマイニングのひらめきを得るには 1.分析課題に対する理解を深める 2.分析手法に対する理解 3.結果に対する理解 形式を大胆に変える 1/0データ <-> n/0データ 非階層型クラスター分析では大きな違いが出ることがある 大胆に変える 商品ID→カテゴリ、テイスト、ブランドに分けて共起スコアの高いものを出す Color Taste Brand ALBERTの分析事例 購入金額で顧客が買ってるカテゴリを推定 買いたいタイミングを予測 どんなカテゴリで商品を買って優良顧客になったか分析する 推薦すべきカテゴリとそのタイミング 長期間買わないものと短期間買うものを判別 データマイニングはビジネスになるか?→Yes データはあるが分析ができない データ量が多すぎる/分析者が居ない/小難しそう →顧客分析、商品分析レポート 分析結果からのアクションが思いつかない 分析しただけで満足→分析結果の満足 分析負荷が高い →ソリューション提供 ソーシャル系は多いがソーシャルゲーム系はいない どういう時に施策に生かされやすいか 実際に動く部門と一緒に動くのがいい 3.機械学習を使った英語習熟度の推定@langstat 英語習熟度の判定の現状と課題 日本人学習者の英作文のマイニング→習熟度の推定、日本人とネイティブの差の分析 習熟度の推定ができない 統一的な基準がない 統計モデルもない 学習者コーパス 学習者が実際に算出したコーパス。習熟度別に言語の変更を見る Hylandのメタ談話標識 分類方法:ランダムフォレスト 1) 精度が高い 2) 結果がわかりやすい Q:SVMはKernelにRBF使ったか? 使ったほうが性能あがるのでは? A:メモリ足りなかった Q: 間違った20%での中でいい情報はあったか? 分野が違うと用法が異なってくる Q: 回帰させれば5段階だせるのでは? 4.売上予測のテキストからの分析@stakemura 大本[Mishene 05]Blogから映画の売上の予測 [Tumasjan 10],[Bolle 10], [Zhang 10] Twitterからの売上予測 Q:ドロリッチや花王の不買運動は予測できたのか? Appleのレーティングから評価と売上の比較 →ずっと売れてるタイトルは高い評価 だが、評価が高いからといって売れ続けるとは限らない。 評判分析アプローチ SentiWordNet converter 分析方法 1.教師あり機械学習 Luceneから始めるのがおすすめ BM25でストップワードを検出した Naive Bayes vs 最大エントロピー ->後者の方がいい Q:テキストマイニングはどのタイミングでかけると効果的だろうか?