まとめ
http://d.hatena.ne.jp/pha/20071126/1196091309
の内容に便乗して、こちらでも少しまとめてみます。順番はいい加減です。
kaminagi
http://twitter.com/kaminagi
こちらはまだ詳細がつかめてませんが、どうやら一定時間ごとにニュースを配信するようです。
dogramagra
http://twitter.com/dogramagra
読むと狂うと有名な、夢野久作著「ドグラマグラ」が昨年末に青空文庫*1入りしました。そこでドグラマグラの文をマルコフ連鎖でぐちゃぐちゃにして、一定時間ごとに出力させています。
ha_ma
http://twitter.com/ha_ma
画像は万が一の対策を兼ねてモザイクをかけていますw
maiの亜流ですが、話題に上がってる単語を抽出してその単語を中心に文を組み立てたり、「おはよう」「ただいま」といった単語に反応したりします。
ちなみにha_maとdogramagraはpythonで書いてます。どうでもいいですね。
以下は関連技術のサイトです。
ししゃも
http://yowaken.dip.jp/sixamo/
rubyで動く人工無脳エンジンだそうです。これを使った人工無脳がいくつか公開されています。
マルコフ連鎖
http://markun.cs.shinshu-u.ac.jp/learn/probability/i_04-00.html
http://d.hatena.ne.jp/kenkitii/20060227/p1 MeCabとPythonで遊んでみたメモ
Mai,hamaの文章生成に使われている技術です。
形態素解析
http://mecab.sourceforge.net/ mecab
http://chasen-legacy.sourceforge.jp/ chasen
http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html juman
「我輩は猫である」といった文章を品詞(名詞だとか、サ変活用だとか)で分解します。
N-gram
http://googlejapan.blogspot.com/2007/11/n-gram.html 大規模日本語 N-gram データの公開
http://www.blwisdom.com/word/key/000876.html N-gram方式
http://nlp.nagaokaut.ac.jp/wiki/wiki.cgi/term?page=n-gram n-gram
検索エンジンでよく使われている方式です。文章等をN文字毎に区切って比較を行う方式だそうです。ってよくわかってません(ぉぃ NってのはN個って意味です。1個なら1-gram(uni-gram),2個なら2-gram(bi-gram)..といった具合のようです。