無駄な抵抗2 - White scenery @showyou, hatena

昨日は3つの文を解析して、その中にある単語の相関を以下の表にまとめてみました。

	(出現文数)	明日	は	いい	天気	でしょう	今日	です	昨日	悪い
明日	1	0	1	1	1	1	0	0	0	0
は	3	0.33	0	0.67	1	0.33	0.33	0.33	0.33	0.33
いい	2	0.5	1	0	1	0.5	0.5	0.5	0	0
天気	3	0.33	1	0.67	0	0.33	0.33	0.33	0.33	0.33
でしょう	1	1	1	1	1	0	0	0	0	0
今日	1	0	1	1	1	0	0	1	0	0
です	1	0	1	1	1	0	1	0	0	0
昨日	1	0	1	0	1	0	0	0	0	1
悪い	1	0	1	0	1	0	0	0	1	0

昨日の日記で「細かい数値はともかくとして・・」とは書きましたが、この数値、実はちゃんとした意味があると思います。

今回は3つの文しか解析してませんが、大量に解析しても高い数値を示す場合、その単語の組み合わせは必要であると考えられます。
少し具体的に例を挙げますと、"「お腹がすいたなぁ」と太郎は言った""「そうですね」"...等、"「」"で囲まれた文を大量に解析して行った場合、"「"と"」"の組み合わせの確率が非常に高くなります。

こうした場合、'"「"はあるけど"」"はない'確率は0となります。(P(^"」"|"「")=0)。よって、"「ほげほげ"といった文章を受理した場合、P(^"」"|"「")が0であることを利用して、この文章は成立しないと見ることができると思うのです。

また、それ以外の値も、組み合わせで「ありがちな文章」「なさげな文章」を見分けることができるのではないでしょうか。

・・と、思ったのですが、有識者の方いかがでしょうか。なんかオートマトンとか統計理論の初歩的な話であるのかもしれませんが、残念ながら私はそれらの教育受けてなくてわからないのです。

あと、自然言語処理の本だと品詞・意味解析の方に話がシフトすることが多いと思います。確かに意味等をちゃんと理解できなければ本当にAIが理解したとは言えないですしね。ただまあそちらのほうは専門の方が行われていると思うんで、あるかどうかわかんないけどやれそうな処理を考えてみました。

追記

"「"と"」"の組み合わせの確率が　ってのは流石にわかり易すぎて例にならん
「」だと統計を取るまでもなくわかる。

っていうコメントをもらったのでちょっと追加。

今回の話の一つのメリットは、統計を取るまでもなくわかるもの(「」,『』,{}等・・)を、一つのアルゴリズムで処理できるのではないか・・というところにあります。

またもう少しわかりにくい例だと、"明日""〜です"という組み合わせの文章を自動的に排除できたりもします。(上の表参照。"明日"と"です"の時の確率が0なので。)

さらに追記

共起分析がまさしくこれにあたるようですね。
http://www.google.co.jp/url?sa=t&ct=res&cd=3&url=http%3A%2F%2Fymatsuo.com%2Fpapers%2Fjsai01a.pdf&ei=f_aWR-yUA5Ce6gOzvOmfCw&usg=AFQjCNHMy0D0MUBTKpkv7jkP3PUPI3eNVA&sig2=f50dEbtEaTO4lSunSbWpiw
これなんかがまさにそうだと思われます。ちょっと読んでみます。
http://www.nttdata.co.jp/event/library/bs2007/day3/pdf/bs2007_02.pdf
この辺もそうですね。CGM+共起分析って割とみんなやってますね。。。

さらにさらに追記

↑の一個目の論文は、共起分析を使った文章の特徴語の抽出でした。なのでちょっと違うかな？
ただ、1文あたりの語数を考慮するってところは参考になったかも。