White scenery @showyou, hatena

If you have any comments, you may also send twitter @shsub or @showyou.

無駄な抵抗2

昨日は3つの文を解析して、その中にある単語の相関を以下の表にまとめてみました。

(出現文数) 明日 いい 天気 でしょう 今日 です 昨日 悪い
明日 1 0 1 1 1 1 0 0 0 0
3 0.33 0 0.67 1 0.33 0.33 0.33 0.33 0.33
いい 2 0.5 1 0 1 0.5 0.5 0.5 0 0
天気 3 0.33 1 0.67 0 0.33 0.33 0.33 0.33 0.33
でしょう 1 1 1 1 1 0 0 0 0 0
今日 1 0 1 1 1 0 0 1 0 0
です 1 0 1 1 1 0 1 0 0 0
昨日 1 0 1 0 1 0 0 0 0 1
悪い 1 0 1 0 1 0 0 0 1 0

昨日の日記で「細かい数値はともかくとして・・」とは書きましたが、この数値、実はちゃんとした意味があると思います。

今回は3つの文しか解析してませんが、大量に解析しても高い数値を示す場合、その単語の組み合わせは必要であると考えられます。
少し具体的に例を挙げますと、"「お腹がすいたなぁ」と太郎は言った""「そうですね」"...等、"「」"で囲まれた文を大量に解析して行った場合、"「"と"」"の組み合わせの確率が非常に高くなります。

こうした場合、'"「"はあるけど"」"はない'確率は0となります。(P(^"」"|"「")=0)。よって、"「ほげほげ"といった文章を受理した場合、P(^"」"|"「")が0であることを利用して、この文章は成立しないと見ることができると思うのです。

また、それ以外の値も、組み合わせで「ありがちな文章」「なさげな文章」を見分けることができるのではないでしょうか。



・・と、思ったのですが、有識者の方いかがでしょうか。なんかオートマトンとか統計理論の初歩的な話であるのかもしれませんが、残念ながら私はそれらの教育受けてなくてわからないのです。

あと、自然言語処理の本だと品詞・意味解析の方に話がシフトすることが多いと思います。確かに意味等をちゃんと理解できなければ本当にAIが理解したとは言えないですしね。ただまあそちらのほうは専門の方が行われていると思うんで、あるかどうかわかんないけどやれそうな処理を考えてみました。

追記

"「"と"」"の組み合わせの確率が ってのは流石にわかり易すぎて例にならん
「」だと統計を取るまでもなくわかる。

っていうコメントをもらったのでちょっと追加。

今回の話の一つのメリットは、統計を取るまでもなくわかるもの(「」,『』,{}等・・)を、一つのアルゴリズムで処理できるのではないか・・というところにあります。

またもう少しわかりにくい例だと、"明日""〜です"という組み合わせの文章を自動的に排除できたりもします。(上の表参照。"明日"と"です"の時の確率が0なので。)

さらに追記

共起分析がまさしくこれにあたるようですね。
http://www.google.co.jp/url?sa=t&ct=res&cd=3&url=http%3A%2F%2Fymatsuo.com%2Fpapers%2Fjsai01a.pdf&ei=f_aWR-yUA5Ce6gOzvOmfCw&usg=AFQjCNHMy0D0MUBTKpkv7jkP3PUPI3eNVA&sig2=f50dEbtEaTO4lSunSbWpiw
これなんかがまさにそうだと思われます。ちょっと読んでみます。
http://www.nttdata.co.jp/event/library/bs2007/day3/pdf/bs2007_02.pdf
この辺もそうですね。CGM+共起分析って割とみんなやってますね。。。

さらにさらに追記

↑の一個目の論文は、共起分析を使った文章の特徴語の抽出でした。なのでちょっと違うかな?
ただ、1文あたりの語数を考慮するってところは参考になったかも。