SIG-WI2 二日目 - White scenery @showyou, hatena

今日の発表では伝播モデルを行列であらわして計算してるのが凄かったです。まだ本文読めそうもないですが。。。ただtwitterって結構取り巻きとかクラスタがいるから、その辺重み付けしないとダメな気がするんだけどどうなんでしょう・・というのもこんなネタもあったわけだし。(もしかしてこれも研究会のネタになるのか？)

あと今回のSIG-WI2の会場自体についてですが、前方に二つのスライド用スクリーンがあってさらに横に#sigwi2タグを含むtweet一覧が表示されていました。要はWISSっぽかったのですが。会場が大阪でしたが、意外と東京で暮らしてて先週の情報処理学会でも居た方もいました。発表中非学術的な方から話聞きたい！というtweetがいくつか聞こえてましたが、ustreamはいろいろ制約があったのでしょうか。

#sigwi2 発言まとめ

1日目
- その1 http://tinyurl.com/ybwn2x6
- その2 http://tinyurl.com/ydnt27w
2日目 http://tinyurl.com/yg2jpsg

話題ごとに変えた方がいいかな？

自分のセッションの感想まとめ http://togetter.com/li/9794

*

昨日

応答がミソなら，マルコフに，action を加えたマルコフ決定過程にして，強化学習を使ったら面白いかも RT @kazuhiro_kazama: 何がリアルかという問題がありますね．会話の内容なのか，レスポンスの仕方なのかとか．

http://twitter.com/shima__shima/status/10498493581

というコメントがあったので、実際にしましまさんにお話を聞いてみた。

以後メモ。間違ってるとこがすごくありそう。

actionを考慮したマルコフ決定過程

こっちが言った発言Aに対して、
　・対象Oが返信した
　・対象Oが返信しなかった
  によって自身の状態を変化させる必要がある
自分の発言自体でも状態を変化させる

TDギャモン((http://www.ai-gakkai.or.jp/jsai/whatsai/AItopics4.html))という問題があるが、この問題で全く同じ解き方すると収束しないだろう。
難しい問題。

機械学習で使われてる連続性を用いたらうまく行くかも->先日の我妻さんの話

マルコフ決定過程がよくわかってなかったけど、Q-learningはそのうちの一つ*1っぽくで、ああこれはやったことあるなぁという感じ。

この場合報酬ってどうなるんだろ？例えば誰かがなにか(Aと)言う→反応(B)があったら報酬、つまり相手がAの状態の時はBという反応をするとかかなぁ。

どちらにせよ他人の応答解析はしようと思っててベースは作ってるのだけど・・

あとこれは考えるべき

発言間隔も，他の人の間隔からモデリングするとよいかも

*1:http://sysplan.nams.kyushu-u.ac.jp/gen/edu/RL_intro.html#RLinMDP