«前の日記(2010-05-27) 最新 次の日記(2010-06-03)» 編集

ぱぱネット(仮)


2010-05-31 Perlは便利だな [長年日記]

_ [Linux] Regexp::Assemble

こんな便利な ものがあったとは....。 Regexp::Assembleは正規表現を動的に組み立ててくれるPerlモジュール。 しかも最適化も行ってくれるらしい。

use Regexp::Assemble;
use utf8;
my $ra = Regexp::Assemble->new;
$ra->add('大丈夫');
$ra->add('大事');
$ra->add('きた');
$ra->add('きたあああ');
print $ra->re;
(?-xism:(?:きた(?:あああ)?|大(?:丈夫|事)))

..... これはすごい!!

インターネット上のテキストデータを扱っていると、 あらかじめNGワード集を作っておいてフィルタリングしたい場合が多々ある。 Regexp::Assembleで、addの部分をwhile/foreachで回せば、 外部ファイルからNGワードを読み込むことができる上、自前で 形態素解析してから1ワードずつマッチ処理するより断然速いわけだ。

やべえ、ちゃんと読んでないのモロバレ...

Perl Hacks ―プロが教えるテクニック & ツール101選(chromatic/Damian Conway/Curtis "Ovid" Poe/株式会社ロングテール/長尾 高弘)

2001|04|
2006|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|06|07|08|09|10|11|12|
2013|01|03|04|05|06|07|08|09|10|11|12|
2014|01|03|04|05|10|

[BANNER]
このサーバーをもう12年も維持しているかと思うとめまいがしますよ。
ツッコミ機能は、ハンドル名が完全日本語じゃないと登録できません。
また、本文にURLが含まれていても登録できません。
いずれもSPAM対策です。
[Panda Papanda]
2010年
5月
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31

[Papanda]  [Kuma]  [Tomorin]  [Iron]  [Eiza]  [Dokkin]  [Honya]  [Zyou]  [Tsuyo]  [Bike]  [KoeBBS]  [Chukei]  [portal]  [tvmatome]  [KaoPaku] 

訪問者数:(11777+2560143)