挨拶を解析する
現在、tweetの「おはよう→@A おはよう」ってやつを自動的に学習できないか、ということを考えてます。・・というか1年くらい前からずっと考えているのですが。
まず最初に考えた問題設定はこんな感じ。
「大量の応答テキストからLDAで自動的に振り分けて、似たクラスタから特徴を見つけ出す」
これで行こうかと思ったのだけど、ちょっとその前に気になることがありました。
- 今回の振り分けの素性はBag of wordsで行こうと思ってましたが、果たしてBag of wordsを使うのがいいのか。Tweetだと短い為表現が省略されていることがある。先日shuyoさんが使ってた極大部分文字列を使うといいのではないか?
- LDAで分類できたとしても、自分で仕組み把握してない。
というわけで、まず問題を小さくして、文章の特徴とか見ようかなぁと思っています。
「大量のラベル付き(これは「おはよう」とかこれは「おかえり」とか)テキストからロジスティック回帰で学習して、残りの文章に対して適応して判別できるようにする」
これなら仕組み的に理解しやすそうです。
- 続く-