«前の日記(2008-07-16) 最新 次の日記(2008-07-18)» 編集

ぱぱネット(仮)


2008-07-17 トサカ先輩曰く「学会ネタはすぐ炎上するぞ」 [長年日記]

_ ○価学会の工作?

iPhoneで池田と入力すると、予測変換に大作と出てくるのが話題となっている。 たいていは「○価信者の工作だ」「絶対故意だろ」という陰謀論が大勢だが..... あえて開発者の視点から「こりゃ故意じゃねーんじゃねーの?」という推測を書いてみることにする。

_ iPhoneのかな漢字変換の素性

使えば一発でわかるが、iPhoneのかな漢字変換は明らかなダメっぷりである。ときどきすごく重くなったり、単語に偏りがあるだけでなく、 恐ろしいことに単文節変換だったりする 。つまり、助詞などは有る程度判別するものの、基本的に単語単位でしか 変換できないのだ この21世紀に!!! 往年の8ビットパソコンのMSXでさえ、後期には連文節変換を実現していたと言うのに。

もちろん組込分野では、古くからオムロンのミニ/モバイルWnn(ワークステーション時代からの実績有)、 ユークエストのCompact-VJE(MS-DOS時代からの実績有)、2003年あたりからATOKの組み込み版(言わずとしれた大御所)もあるわけだ。 これらの「かな漢字変換エンジン」を買ってきて組み込んでいたら、こんな馬鹿なことには絶対にならないのです。つまり、 iPhoneのエンジンは内製である可能性が高い と言えます。

_ 「フルスクラッチで1ヶ月以内にiPhoneのかな漢字変換作ってね」

もし俺がジョブズか直属のマネージャに上のようなセリフを言われたとしたら、1ヶ月後には多分、 「池田」の次は「大作」が出るエンジンを作ってしまうだろうな〜と思う訳だ。

論理の飛躍があるって?じゃあもう少し詳しく説明しよう。あ、念のため言っておくけど俺は○価信者じゃないからな(笑)

良いかな漢字変換というものは、たとえアルゴリズムがわかっていても一日二日でできるものではない。 必ず対になる「良い辞書」が必要だ。

_ 形態素辞書

辞書のひとつめは形態素辞書である。品詞や読みが記載されている辞書。 これを使って、「ぜんぶひらがな」で入力された日本語を形態素解析することで、品詞単位に初めて分解できる。 この辞書は、どうしても人手でなければ作れないため、日本語学者が作った形態素辞書を買ってきたり、 別の「売り物」からフィルター書いて自動生成したりする。

形態素辞書の元になる「売り物」は、概念辞書、共起辞書、あるいは日本語コーパスと言われる膨大な例文集であって、 朝日新聞とか読売新聞とか毎日新聞の記事や広告を機械的に処理 したあとで、学者たちが ひとつひとつタグ付けして作られたものなわけ。つまり極めて農耕民族的な努力....膨大な文章を読ませる →間違いを目でチェックして単語追加→新しい形態素辞書で解析→また膨大な...という努力の結晶。

尚、共起辞書ってのは単語動詞の係受け(共起句)が記載されているから、かな漢字変換アルゴリズムの 検証でも良く使われる。意味そのものがわかるわけじゃないけど、自然文を扱う上での素材としては超便利。 以下はEDRっていう有名な辞書の例文。

=========================[日本語共起辞書レコードの例]===========================
<レコード番号>                          JCC7173641
<見出し情報>
         <句見出し>                     昼食    を      食べ
<共起句構成要素情報>
<要素   <形態   <かな表記>      <品詞>  <慣用句 <概念情報>
番号>   素>                             フラグ>
{ 1     昼食    チュウショク    名詞    0      3bec74  lunch   昼食[チュウショ
ク]    "a meal eaten at noon"  昼の食事 }
{ 2     を      ヲ              助詞    0        "" }
{ 3     食べ    タベ            動詞    0      3bc6f0   ""     食べる[タベ・ル
]      "to eat something"      食物をとる }
<構文情報>
        <部分構文木>
                <受け側要素>            3/食べ
                <関係要素>              2/を/を
                <係り側要素>            1/昼食
<意味情報>
        <部分意味フレーム>
(省略)

こんなのね。

_ 頻度辞書

辞書のふたつめは頻度辞書である。各品詞の 出現確率 連接確率 が 記載された頻度辞書が必要だ。この辞書は、別に漢字変換しなくても、ひらがなを適切に分解(わかち書き)するだけでも使うし、 漢字の候補順を決定するのにも使うし、もちろん予測変換にも使う。 「ならしの」が「習志野」になりやすく、「奈良市の」や「均しの」になりにくいのは、 「習志野」「奈良」が名詞、「の」が助詞として判別できているだけでは不十分で、 「ならしの」が「習志野」と書かれた文章が世間に多いからだとわかっているからだ。

そしてこの頻度辞書は、 ほぼ100%新聞やネットの情報から自動生成する 。それが一番鮮度高いから。 この作業は、どちらかと言えば学者先生じゃなくて、各かな漢字変換エンジンの技術者がやる作業だな。 既存の形態素辞書で品詞に分解してから集計するわけね。実際俺が10年くらい前にGooみたいな 自然文インターネット検索エンジンを作っていたときは、webをクロールしたログを解析して頻度辞書作ってたよ。

_ ネットの必然

で...さ...ほら...新聞には必ずと言っていいほど大作先生の(ゴーストライター疑惑はあるけど)単行本の広告が載ってるでしょ... 某巨大掲示板でも○価叩きのネタが尽きることはないわけですよね。さらに辞書の大きさに制約(モバイル機器では良くあること)が あった場合、つまり「池田」→「大作」の連接確率より「池田」→「寿男」の確率が低かったら、後者はサイズ軽減のために 自動的に消される可能性が高い。特に予測変換を積極的に利用するUIでは、予め頻度の低い連接は消される可能性が高いんだ。

もうわかったっしょ。だから、

「池田」の次は「大作」になる

んですよ。これはある意味必然なのです。この件で最も皮肉なことは、○価叩きをすればするほど、話題に挙げれば挙げるほど、 インターネットの中で池田大作の存在は永遠に近くなっていくところだ(笑)。掲示板の叩きコピペなんて完全に逆効果ですね。

_ 別件だが

touchの辞書でらき☆すたとかmosaic.wavが出てくると いうのも、似たような話。 形態素辞書は、学者さんが作ったものなので、Webで良く使われる「話し言葉」や「日々産まれゆく新しい語彙(造語)」 にはほとんど全く対応していない。これは俺もかなり困った。なにせ元の照合する辞書にない単語を含む文章は、 おかしなわかち書きをすることがよくあるから。

そこで俺も「うまくわかち書きできない」箇所(※スコアリングして判別する)は、助詞と思われる部分を取り除いた上で、 一旦名詞として仮登録し、後段の頻度辞書を作る過程で、出現頻度を測定してから新しい名詞と認定する (※形態素辞書に自動でフィードバックをかける)アルゴリズムを書いたことがある。こうすると勝手に造語が増えていくので便利。

まあ、まともな会社だったら、造語の生成自体は自動でも、その後でのべ何十人も投入して辞書の洗練作業行うんだけどね〜。 だから「池田大作」も「mosaic.wav」も恣意的に消される可能性が高いんだ(笑)。 むしろiPhone/touchの辞書はWebクロールした生データで、 時間も人手も金もなくて 何もいじってない結果だと 俺は確信している。要するに 俺等が掲示板等で「萌え〜」とか言ってた文章がそのまま辞書になっている のだ.....もっともアニメフリークがAppleにいることも否定できないが(笑)。

_ そういや

Windows VistaのIMEも中国製で日本語を知らない連中が作っているらしい。MSもAppleも日本市場なんて 全く重要視していないんだよな。もはやコンピュータが一番文章を書く道具になっている御時世で、 こんな重要な部分を海外勢に牛耳られていて日本は大丈夫なんですかね。実際の使用状況でも、 IMEで出てこない語彙はもはやPCで入力しない(諦める)わけでしょう?そこからATOK買いに走ったりはしないもんねえ...。

言語は文化そのものであり、一介の技術者としては、宗教論争よりも竹島問題よりも気になるところです。

_ しかし...

俺....この会社でいろいろやってるのに....全然プロダクトとして世の中にでていってないんだな...onz.....

いったい何のためにいきてるんだろう....かゆ....うま....

本日のツッコミ(全2件) [ツッコミを入れる]
_ すら2 (2008-07-17 11:25)

iPhoneの日本語環境はPOBoxの人がAppleに行って作っているはずですよ。

_ (2008-07-17 13:27)

この筋では有名な、SCSLの増井先生ですね。
それはもちろん知ってますが...

アルゴリズムやUIの優秀さと辞書の洗練さ加減は別で、
農耕民族的価値観がないと洗練されていかないんだよん。

ということがこの文章の主題です。MSのIMEも、元は
WXPを作ってたAIソフトの資産を受け継いだのに、
Vistaにしたとき何も考えずに中華産に変更してますから。
軽視せずに改善を続けてほしいのにという気持ちがあった
わけです。大作ネタというよりは。


2001|04|
2006|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|06|07|08|09|10|11|12|
2013|01|03|04|05|06|07|08|09|10|11|12|
2014|01|03|04|05|10|

[BANNER]
このサーバーをもう12年も維持しているかと思うとめまいがしますよ。
ツッコミ機能は、ハンドル名が完全日本語じゃないと登録できません。
また、本文にURLが含まれていても登録できません。
いずれもSPAM対策です。
[Panda Papanda]
2008年
7月
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

[Papanda]  [Kuma]  [Tomorin]  [Iron]  [Eiza]  [Dokkin]  [Honya]  [Zyou]  [Tsuyo]  [Bike]  [KoeBBS]  [Chukei]  [portal]  [tvmatome]  [KaoPaku] 

訪問者数:(11777+2560143)