みうなちゃん問題
ubuntu 12.04 LTS + mecab + naist-jdicにて。
まあ当然といえば当然なのかもしれないけれど、登録されてないときついわな。
じゃあkytea 0.4.6は・・というと、
~/kytea-0.4.6$ echo "リリカルなのは" | kyteaリリカル/名詞/りりかる なのは/名詞/なのは
~/kytea-0.4.6$ echo "結局みうながかわいそうじゃないか!なんだこの仕打ちは!" | kytea
結局/名詞/けっきょく み/動詞/み うなが/動詞/うなが かわいそう/形状詞/かわいそう じゃ/助動詞/じゃ な/形容詞/な い/語尾/い か/助詞/か !/補助記号/! な/動詞/な ん/語尾/ん だ/助動詞/だ この/連体詞/この 仕打ち/名詞/しうち は/助詞/は !/補助記号/!
~/kytea-0.4.6$ echo "結局みうなちゃんがかわいそうじゃないか!なんだこの仕打ちは!" | kytea
結局/名詞/けっきょく みう/名詞/みう な/助動詞/な ちゃん/名詞/ちゃん が/助詞/が かわいそう/形状詞/かわいそう じゃ/助動詞/じゃ な/形容詞/な い/語尾/い か/助詞/か !/補助記号/! な/動詞/な ん/語尾/ん だ/助動詞/だ この/連体詞/この 仕打ち/名詞/しうち は/助詞/は !/補助記号/!
~/kytea-0.4.6$ echo "みうなちゃんかわいい" | kytea
うお、名詞として引き出せるのに先の方の文章は誤分類する・・
以前「リリカルなのは」は分類できるのか?とKyTea作者のNewbig氏に聞いた時に、やはり「な の は」と分類されるけど辞書追加により対応するっていう話がありました。そのときは未知語、といいますか「~なのはいやだ」とか、別の用法が頻出するっていう問題がありました。
https://twitter.com/neubig/status/122146128425795584
個人的になぜこんな感じのが起こるのか。まずmecabは文全体に対していくつか分ける方法を考えて、一番尤度(起こりやすさ)が高いものを見ているからだと考えています。んで「みうな」に対してスコアが設定されていないため、そもそも抽出できないと*1。
一方でKyTeaは文に対して「ここで区切ったほうがよいか、どうか」とだけ考えて区切ってるはずですが、見る+うながすの形に区切られてそう。
それより来週どうなんだろ・・
参考
http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
http://www.phontron.com/paper/nlp2010-kytea.pdf
*1:mecab互換+辞書設定してるbenymd_botは抽出できている模様https://twitter.com/benymd_bot/status/449184330749734912