こんな便利な ものがあったとは....。 Regexp::Assembleは正規表現を動的に組み立ててくれるPerlモジュール。 しかも最適化も行ってくれるらしい。
use Regexp::Assemble;
use utf8;
my $ra = Regexp::Assemble->new;
$ra->add('大丈夫');
$ra->add('大事');
$ra->add('きた');
$ra->add('きたあああ');
print $ra->re;
(?-xism:(?:きた(?:あああ)?|大(?:丈夫|事)))
..... これはすごい!!
インターネット上のテキストデータを扱っていると、 あらかじめNGワード集を作っておいてフィルタリングしたい場合が多々ある。 Regexp::Assembleで、addの部分をwhile/foreachで回せば、 外部ファイルからNGワードを読み込むことができる上、自前で 形態素解析してから1ワードずつマッチ処理するより断然速いわけだ。
やべえ、ちゃんと読んでないのモロバレ...
Perl Hacks ―プロが教えるテクニック & ツール101選(chromatic/Damian Conway/Curtis "Ovid" Poe/株式会社ロングテール/長尾 高弘)
|
![[BANNER]](../image/banner.png)
|