挨拶を解析する - White scenery @showyou, hatena

現在、tweetの「おはよう→@A おはよう」ってやつを自動的に学習できないか、ということを考えてます。・・というか1年くらい前からずっと考えているのですが。

まず最初に考えた問題設定はこんな感じ。

「大量の応答テキストからLDAで自動的に振り分けて、似たクラスタから特徴を見つけ出す」

これで行こうかと思ったのだけど、ちょっとその前に気になることがありました。

今回の振り分けの素性はBag of wordsで行こうと思ってましたが、果たしてBag of wordsを使うのがいいのか。Tweetだと短い為表現が省略されていることがある。先日shuyoさんが使ってた極大部分文字列を使うといいのではないか？
LDAで分類できたとしても、自分で仕組み把握してない。

というわけで、まず問題を小さくして、文章の特徴とか見ようかなぁと思っています。

「大量のラベル付き(これは「おはよう」とかこれは「おかえり」とか)テキストからロジスティック回帰で学習して、残りの文章に対して適応して判別できるようにする」

これなら仕組み的に理解しやすそうです。