White scenery @showyou, hatena

If you have any comments, you may also send twitter @shsub or @showyou.

Google日本語入力勉強会に行ってきた

Googleヒルズに移ってから、初めて行った。セルリアンタワーも一回しか行ったこと無いけど。
先日のGDDに比べ、より開発方向に特化した人らが多かったためか、結構詳しい部分の話を聞くことができた。
あと軽食もGDDよりおおかっt

まとめ

  • Rewriterは自分でも簡単に作れるので作ってみよう
  • Mozcのソースは読みましょう
  • Trie知らない奴は非国民(by nokuno)

ログ

イーモバが入らないのが辛い。無線は鍵かかってないし。 #mozc 2010/10/23 14:08:09

スライド非公開とな。これた方限定! #mozc 2010/10/23 14:09:42

Primeは一時期Linuxで使ってたなー。MeCabbot(ry #mozc 2010/10/23 14:15:29

20%ルールで21世紀の弁当注文システムwww #mozc 2010/10/23 14:16:27

#mozc もしかして:ふたりはプリキュア がすごかったなぁ 2010/10/23 14:17:56

#mozc http://tweet-search-stream.gimite.net/search?q=%23mozc 更新早過ぎる 2010/10/23 14:19:31

#mozc 最初の半年はディスカッションばかりでコードなし 2010/10/23 14:20:46

#mozc それから週に1時間ずつコーディング。libanthy.soのクローンから 2010/10/23 14:21:27

ドッグフード。社内で食べる #mozc 2010/10/23 14:21:55

#mozc 既存のIMEとの互換性の要望が多かった。ああそういえばprimeはnnあたりの入力が残念だった気が 2010/10/23 14:22:49

#mozc かおもじでない・・(0.12.421.1) 2010/10/23 14:24:12

#mozc ながいながいラストワンマイル。テストコードが実装の2倍! 2010/10/23 14:24:41

こないだWindowsGoogle日本語入力で「めりろっとさん」と入れたら無理矢理「メリロートさん」に変換されて「メリロットさん」と入れられなかったなぁ #mozc 2010/10/23 14:26:20

#mozc RT:Q. テスト不十分で落とした機能ってなんですか? A.だが断る()置いといて。未来については話せません。ごめんなさい。 2010/10/23 14:30:51

#mozc UnitTestが書けない部分のテストは?できるだけUnitTestに落とせるようにする 2010/10/23 14:31:49

#mozc 最初は20%ルールだが今はメインのプロジェクト 2010/10/23 14:34:00

#mozc UnitTestの自動化ツールはあるか?>ある。毎日回して、エラーがあったらエラー作った人あたりにメールが飛ぶ 2010/10/23 14:35:20

#mozc 工藤さんの「Mozc設計概要」 2010/10/23 14:35:49

#mozc 空気のようなIMEを創りたい。マルチプラットフォーム。スピード、セキュリティ、安定性 2010/10/23 14:36:29

#mozc 既存のMSIMEを真似てもだめ。新規に作るしかない 2010/10/23 14:37:28

#mozc 既存のIME:各アプリケーションにIME全機能が寄生。IMがクラッシュするとアプリケーションも落ちる 2010/10/23 14:39:46

#mozc IMは絶対クラッシュしてはイケない。大事なことなので(ry 2010/10/23 14:40:45

#mozc http://bit.ly/bu9LSC devsumiのうちの日記ログ 2010/10/23 14:42:18

lousって書いてるけどloudsが正しいな。そしてtkngさんの日記が引っかかった http://bit.ly/dqetyD 2010/10/23 14:44:32

#mozc クライアントがGUI, 変換エンジンにIPCで支持を出す 2010/10/23 14:48:57

#mozc 変換アルゴリズム n文節最長一致。連続するn文節のなかで最長の候補をgreedyに探索。さらに最小コスト法。 2010/10/23 14:55:37

#mozc 単語生起コストと連接コストが最小なのをDPで最適パスを求める。latis構造。 2010/10/23 14:57:40

#mozc lattice構造か 2010/10/23 14:58:17

#mozc p(y) y=漢字混じり文。xはひらがな。Webから取り放題p(x|y)は読み方 2010/10/23 15:02:41

#mozc あわせて読みたい RT @kanzmrsw: #mozc このへんは @nokuno 氏のこいつですね:「Mozcソースコード徹底解説」 at 第2回自然言語処理勉強会 - nokunoの日記 - http://goo.gl/0PoB 2010/10/23 15:04:19

#mozc レールガンwww 2010/10/23 15:04:48

#mozc 安定版では超電磁砲無理だな 2010/10/23 15:05:49

評価は難しい。様々なジャンルのデータ(新聞、Webデータ、Webクエリ)を集めたが 2010/10/23 15:10:35

#mozc たとえ1000個の固有名詞が変換できても1個でも普通の単語(あした->明日)とかが変換できないとボロクソにけなされる 2010/10/23 15:11:32

#mozc httpsocketではなくUnixDomain socketを使うと相手のアプリケーションが正しいかとかの判定ができないのでセキュリティ的にまずい 2010/10/23 15:14:39

瀕死体型・・ 2010/10/23 15:18:03

#mozc devsumiで殺すデモやってたなぁ 2010/10/23 15:19:21

.@nokuno氏が買った新しいMacBookAir触ってきた。ちっちぇえ。そして今のProっぽくなってる。 2010/10/23 15:38:13

#mozc ソースコードリーディング90分 2010/10/23 15:40:39

#mozc ビルドシステム、Client, Converter layer, Rewriter, Storageの順で説明 2010/10/23 15:41:41

#mozc 向井氏によるbuildsystemの話。GYPを採用。 2010/10/23 15:42:16

#mozc 以前はscons。最近GYPになった 2010/10/23 15:43:41

#mozc scons:python製でなんでもかけるのはいいが複雑になると辛い、プラットフォームのサポートが弱い 2010/10/23 15:44:29

#mozc GYPは単独でビルドを行わず、vcbuildとかxcode, make, sconsのビルド作る 2010/10/23 15:46:07

#mozc base/base.gyp見てる。dictの塊・・ 2010/10/23 15:47:34

#mozc 変数展開は<(変数名) 2010/10/23 15:49:00

#mozc gypそのものだと書きづらいのでbuild_mozc.pyが生成してくれる 2010/10/23 15:53:11

@AntiBayesian なるほどー。removeはよくあることですね。 2010/10/23 15:55:41

#mozc 小松さんのClient部分の話 2010/10/23 15:57:49

・・今更思ったけどmozcの辞書データってbotの学習データに使えるかな?w 2010/10/23 15:58:33

#mozc protocol buffer と聞いてmessagepackと思い浮かんだが似たうなものなのかな? 2010/10/23 16:00:59

@monamour555 おおー!ありがとうございます。 2010/10/23 16:03:41

#mozc 質問:実装した部分の速度の測定はどうやってますか? 2010/10/23 16:07:36

#mozc Enumの数値を一個ずつ打ち込んでいくのは辛そうだなぁ。 2010/10/23 16:10:14

#mozc 変換例のでも分かりやすいなー 2010/10/23 16:14:15

#mozc クライアントの実装例。unix/emacs/mozc_emacs_hemlper.cc 2010/10/23 16:15:33

#mozc sessionidはクライアント作る人には隠蔽されてる 2010/10/23 16:17:33

#mozc 工藤さんのConverter部分 2010/10/23 16:21:45

#mozc Segments(文節列)クラス=Segmentのクラス。Segment=Candidateの配列+メタ情報。Candidate:key=よみ、value=候補 2010/10/23 16:23:36

#mozc 左IDと右IDと分かれてる理由:複合語で左からみたときと右品詞がことなる(例:山田太郎は左から見ると姓だが右から見ると名 2010/10/23 16:33:36

#mozc コスト=-500*log(出現確率) 2010/10/23 16:33:52

#mozc 品詞IDが変わるとスコアは異なる。名詞の500点と助詞の500点はことなる。 2010/10/23 16:35:06

#mozc コスト周りの書き方、mecabのユーザ辞書に似てるような。 2010/10/23 16:35:36

#mozc システム辞書の追加はおすすめ出来ない。どうしてもやりたい場合。小鳥遊を追加したい場合、適当な量なテキストを集めて、別な単語との出現比(佐藤 1000:小鳥遊 1) をみて、1000ならコストは3400足しますよ・・という風に行う。 2010/10/23 16:38:11

#mozc 文節切りルール。[私|の][名前|は] 助詞=>名詞の時は文節きる 2010/10/23 16:39:21

#mozc if->thenルールを全展開。共通の状態をまとめてビット配列に圧縮www 2010/10/23 16:41:13

#mozc rewriterについて。変換結果にいろいろ追加する。コストに関係なく。きょうとかおみくじとか。 2010/10/23 16:42:27

#mozc rewriterの作り方。RewriterInterfaceを実装する。rewriter.ccに足す。gypも変える。 2010/10/23 16:43:38

#mozc Rewrite()メソッド。*全ての変換で使われている* 2010/10/23 16:45:38

#mozc 質問:mozcのデータにある顔文字辞書データは他のWebサービスで使っても大丈夫なのですか? 2010/10/23 16:54:06

#mozc うちのPC見て「かおもじで一覧でないのー」って言ってる・・うちのMacはベータ版なのよ。。。 2010/10/23 16:56:51

#mozc 花岡さんのstorage周り 2010/10/23 16:58:23

#mozc user dictionaryはprotocol bufferのファイル 2010/10/23 17:00:30

#mozc RT @nokuno: system_dictionaryはバイナリ埋め込み。gen_system_dictionary_data_main が圧縮も行う。 #mozc 2010/10/23 17:02:36

#mozc bloom filterってこないだのピエロが変換できないアレかw 2010/10/23 17:06:31

#mozc FAQ:問題を見つけました。MozcのみならIssue trackerに報告 Google日本語入力全般ならヘルプフォーラム 2010/10/23 17:10:41

#mozc 辞書を追加して欲しい→BSDライセンスで公開してもらえれば取り込みます。GPLはきつい。 2010/10/23 17:11:50

#mozc C++/STL/POSIX準拠なら動く可能性あり。Bigendianは圧縮あたりでめんどい・・ 2010/10/23 17:12:56

#mozc 顔文字の辞書は?→人力 2010/10/23 17:13:51

#mozc 文字コードは?>utf-8 sjis環境で問題になるのでソースでは"\x0101"みたいに書いて、コメントでutf-8の字で書いてる 2010/10/23 17:16:00

#mozc 速度は測ってる?プロファイラはある。protocol通信?部分で時間を計測する機能がある 2010/10/23 17:17:04

Googleだとその辺のソフト自分で組んでるのかな?Hudsonとか使うのだろうか RT @nokuno: 自動テスト・継続的インテグレーションで速度を測定するのは便利そう。 #mozc 2010/10/23 17:18:37

ToDo: mozcのコード読む。これだけでc++の力が若干付きそうだ 2010/10/23 17:28:40

ドラがあるwwww 2010/10/23 17:31:34

#mozc いきなり未踏っぽいネタがw 2010/10/23 17:33:21

#mozc @nokuno キター 2010/10/23 17:37:24

#mozc 「Trieについては日本人で知らない人は居ないと思いまうが」wwww 2010/10/23 17:40:51

#mozc そして#tokyotextmingの宣伝とかw 2010/10/23 17:41:10

TV用ジェスチャー入力・・(修論でやった) 2010/10/23 17:42:57

#mozc なんかD社多くね?w 2010/10/23 17:47:30

#mozc 大丈夫だ、問題ない。 2010/10/23 17:48:37

#mozc mozc vs anthy! 2010/10/23 17:56:03

#mozc Anthyウテナ由来だっけ? 2010/10/23 17:57:17

#mozc google testが気になるなぁ。 2010/10/23 17:58:40

#mozc T-codeについて。いきなり漢字が出てくる!? 2010/10/23 18:03:25

#mozc ィとムで仏とでるとかw 2010/10/23 18:05:41

#mozc continus build system:chrome参考に。独自? 2010/10/23 18:09:06

#mozc タイトルアルパカ神ってw 2010/10/23 18:10:40

#mozc zkで↑が出る! 2010/10/23 18:13:26

#mozc 当然zh zj zlもあるのね 2010/10/23 18:13:59

やばい変態すぎるww #mozc 2010/10/23 18:15:21

フリックできるかなぁw#mozc 2010/10/23 18:15:44