無駄な抵抗2
昨日は3つの文を解析して、その中にある単語の相関を以下の表にまとめてみました。
(出現文数) | 明日 | は | いい | 天気 | でしょう | 今日 | です | 昨日 | 悪い | |
明日 | 1 | 0 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 |
は | 3 | 0.33 | 0 | 0.67 | 1 | 0.33 | 0.33 | 0.33 | 0.33 | 0.33 |
いい | 2 | 0.5 | 1 | 0 | 1 | 0.5 | 0.5 | 0.5 | 0 | 0 |
天気 | 3 | 0.33 | 1 | 0.67 | 0 | 0.33 | 0.33 | 0.33 | 0.33 | 0.33 |
でしょう | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 |
今日 | 1 | 0 | 1 | 1 | 1 | 0 | 0 | 1 | 0 | 0 |
です | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 0 | 0 | 0 |
昨日 | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |
悪い | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 1 | 0 |
昨日の日記で「細かい数値はともかくとして・・」とは書きましたが、この数値、実はちゃんとした意味があると思います。
今回は3つの文しか解析してませんが、大量に解析しても高い数値を示す場合、その単語の組み合わせは必要であると考えられます。
少し具体的に例を挙げますと、"「お腹がすいたなぁ」と太郎は言った""「そうですね」"...等、"「」"で囲まれた文を大量に解析して行った場合、"「"と"」"の組み合わせの確率が非常に高くなります。
こうした場合、'"「"はあるけど"」"はない'確率は0となります。(P(^"」"|"「")=0)。よって、"「ほげほげ"といった文章を受理した場合、P(^"」"|"「")が0であることを利用して、この文章は成立しないと見ることができると思うのです。
また、それ以外の値も、組み合わせで「ありがちな文章」「なさげな文章」を見分けることができるのではないでしょうか。
・・と、思ったのですが、有識者の方いかがでしょうか。なんかオートマトンとか統計理論の初歩的な話であるのかもしれませんが、残念ながら私はそれらの教育受けてなくてわからないのです。
あと、自然言語処理の本だと品詞・意味解析の方に話がシフトすることが多いと思います。確かに意味等をちゃんと理解できなければ本当にAIが理解したとは言えないですしね。ただまあそちらのほうは専門の方が行われていると思うんで、あるかどうかわかんないけどやれそうな処理を考えてみました。
追記
"「"と"」"の組み合わせの確率が ってのは流石にわかり易すぎて例にならん
「」だと統計を取るまでもなくわかる。
っていうコメントをもらったのでちょっと追加。
今回の話の一つのメリットは、統計を取るまでもなくわかるもの(「」,『』,{}等・・)を、一つのアルゴリズムで処理できるのではないか・・というところにあります。
またもう少しわかりにくい例だと、"明日""〜です"という組み合わせの文章を自動的に排除できたりもします。(上の表参照。"明日"と"です"の時の確率が0なので。)
さらに追記
共起分析がまさしくこれにあたるようですね。
http://www.google.co.jp/url?sa=t&ct=res&cd=3&url=http%3A%2F%2Fymatsuo.com%2Fpapers%2Fjsai01a.pdf&ei=f_aWR-yUA5Ce6gOzvOmfCw&usg=AFQjCNHMy0D0MUBTKpkv7jkP3PUPI3eNVA&sig2=f50dEbtEaTO4lSunSbWpiw
これなんかがまさにそうだと思われます。ちょっと読んでみます。
http://www.nttdata.co.jp/event/library/bs2007/day3/pdf/bs2007_02.pdf
この辺もそうですね。CGM+共起分析って割とみんなやってますね。。。
さらにさらに追記
↑の一個目の論文は、共起分析を使った文章の特徴語の抽出でした。なのでちょっと違うかな?
ただ、1文あたりの語数を考慮するってところは参考になったかも。