こんな便利な ものがあったとは....。 Regexp::Assembleは正規表現を動的に組み立ててくれるPerlモジュール。 しかも最適化も行ってくれるらしい。
use Regexp::Assemble; use utf8; my $ra = Regexp::Assemble->new; $ra->add('大丈夫'); $ra->add('大事'); $ra->add('きた'); $ra->add('きたあああ'); print $ra->re; (?-xism:(?:きた(?:あああ)?|大(?:丈夫|事)))
..... これはすごい!!
インターネット上のテキストデータを扱っていると、 あらかじめNGワード集を作っておいてフィルタリングしたい場合が多々ある。 Regexp::Assembleで、addの部分をwhile/foreachで回せば、 外部ファイルからNGワードを読み込むことができる上、自前で 形態素解析してから1ワードずつマッチ処理するより断然速いわけだ。
やべえ、ちゃんと読んでないのモロバレ...
Perl Hacks ―プロが教えるテクニック & ツール101選(chromatic/Damian Conway/Curtis "Ovid" Poe/株式会社ロングテール/長尾 高弘) |