«前の日記(2009-05-16) 最新 次の日記(2009-05-18)» 編集

ぱぱネット(仮)


2009-05-17 わかち書きエンジンについて少し [長年日記]

_ 「わかち書き」ってなに?

英語だと、単語はスペースで区切るという習慣があるので、単語の出現頻度を測定したりするのは非常に楽である。ところが日本語には単語単位の区切りがない。

そこで検索には「わかち書き」という字句解析がどうしても必要になる。字句解析といっても、やはり統計量を使わないといけないので、ちょうどかな漢字変換の逆を推定しながらやるようなものだ。大きなカテゴリで言えば、形態素解析(品詞分析)の一つの形態といえるのだろうか。品詞使わないだけで品詞の推定は必要という。だって単純に文字種の区切りで「わかつ」と酷いことになるからね。

_ この分野では従来からkakasiが広く使われていた

しかし、使ってみると・・・

  1. こっちにもいときたかったこともすごいあったんですけど
  2. してきたのではないでしょうか
  3. 水道工事
  4. 神経伝達物質

極少ない例だが これらが全て1単語として扱われる(笑) 。口語体の分析には辞書の洗練が不可欠とは言え、デフォルト状態がこれでは少々困ったことになる。

例えば、水道工事が全文中にただ1つしか出てこなかったとき、この単語で検索インデックスを作成すると 「工事」ではひっかからなくなる ということだ。

_ [Linux] MeCab(和布蕪=めかぶ)を使ってみた

MeCab(和布蕪=めかぶ)

MeCabは 京都大学情報学研究科−日本電信電話株式会社
コミュニケーション科学基礎研究所共同研究ユニット
プロジェクトを通じて開発されたオープンソース形態
素解析エンジンです.
 言語, 辞書,コーパスに依存しない汎用的な設計を基本
方針としています. パラメータの推定に Conditional
Random Fields (CRF) を用いており, ChaSenが採用して
いる隠れマルコフモデルに比べ性能が向上しています。
また、平均的に ChaSen, Juman, KAKASIより高速に動作します

ほほう? こんなものがフリーで使えるなんて! すごい時代になったものです。上記例を試してみよう。

  1. こっち/に/も/い/とき/たかっ/た/こと/も/すごい/あっ/た/ん/です/けど
  2. し/て/き/た/の/で/は/ない/でしょ/う/か
  3. 水道/工事
  4. 神経/伝達/物質

GJすぎる

これは素晴らしいですな。

_ ところが・・・

ウチではkakasiよりダイブ遅いようです。2MBのテキストファイルを食わせた場合・・・

$ ls -l a.txt
-rw-r--r-- 1 avivo avivo 2302525 2009-05-17 15:56 a.txt

かかし(2.3.4)の場合、

$ time kakasi -w < a.txt > b.txt

real    0m0.378s
user    0m0.344s
sys     0m0.024s

めかぶ(0.98pre2+IPA辞書)の場合、

$ time mecab -Owakati < a.txt > c.txt

real    0m1.701s
user    0m1.452s
sys     0m0.248s

マシンはXEON3GHzデュアル、メモリ4GBで

通常(kakasi)の4倍遅い

という結果がが!!・・・・いろいろな文章で試したけど、少なくともmecab -Owakatiがkakasiより高速ってことはないみたい。

もしかしたらバージョン0.98pre付近になって何か内部構造が変わったのかもね。流石にオレのおつむではアルゴリズムを追いかけることはできないが、kakasiではやっていないであろうと思われる未知語の推定などがあるはずだから、統計量をひくアルゴリズムが多少高速だからといって全体が高速にはならないんだろうなー?とか邪推。

それでもま、この正確性は棄てがたいのでMeCabをしばらく使ってみようかなと思っています。しかし・・・今まで作った辞書また作り直しかonz


2001|04|
2006|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|06|07|08|09|10|11|12|
2013|01|03|04|05|06|07|08|09|10|11|12|
2014|01|03|04|05|10|

[BANNER]
このサーバーをもう12年も維持しているかと思うとめまいがしますよ。
ツッコミ機能は、ハンドル名が完全日本語じゃないと登録できません。
また、本文にURLが含まれていても登録できません。
いずれもSPAM対策です。
[Panda Papanda]
2009年
5月
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

[Papanda]  [Kuma]  [Tomorin]  [Iron]  [Eiza]  [Dokkin]  [Honya]  [Zyou]  [Tsuyo]  [Bike]  [KoeBBS]  [Chukei]  [portal]  [tvmatome]  [KaoPaku] 

訪問者数:(+2560143)