ぱぱネット（仮）

2010-06-28 またロートルとか言われるんだろうなあ [長年日記]

_ [Linux][開発] TokyoCabinetの複合検索を高速化した

http://linux.papa.to/image/tokyocabinet-1.4.45.scost.patch.tar.gz がパッチとバッチ。彗星の煌めきのごときmikio wareに、俺のゴミパッチを当てたら当然クォリティは下がりますので、そこんとこよろしく。責任とれまへん。ライセンスはオリジナル準拠です。

_ [Linux][開発] 内容説明

TokyoTyrantのサーバであるttserverを起動しておいて、

% sh server.sh [ENTER]

setindex.plを実行してインデックスを作成し、ins.plで100万レコードを登録したデータベースに対して、search.plで複合検索を行う、という実験です。パッチ自体はTokyoCabinetに対するものですが。

登録するデータは、ニコニコ動画のタグや掲示板の書き込みのようなものを思い浮かべてください。投稿者(uname)と、投稿本文またはタグ(ptoken)と、投稿時刻(time)がある。時刻はUNIX起源時間にすると見辛いので1〜100万までの整数にしてある。

key	time	uname	ptoken
jIuqHzqZd3QdXy4QeuFwEfwt	1	AABC	ucuuZRAU,jfb5XOyr,gI2CfCZ6,sSlCsZXQ,aYoC9JOS,0GK6visU,aOGmIH8M
UC8A5Q13PYNYvYe0EOjyjiLq	2	DADB	897IZiAU,e0k5ap06,i85jkur3,qWJcRIHm
9dwkWmPq30ApknRfPHTf8xei	3	CCFA	p9Vlhd89,1KBZrZ1h,FwRgzl7r,Y5zBfLgT,uEEtvZ7F

search.plは、このTTに対して複合的な検索クエリーを発行する。例えば「ある開始時刻〜終了時刻の、ユーザほげほげさんの投稿を、古い順に100件探す」みたいなかんじです。ありがちな処理でしょ？

my $qry = TokyoTyrant::RDBQRY->new($db);
my $start = ($j * 12345) % 1000000;
my $end = $start + 3600;
my $user = $users[$j % 50];
print "TIMERANGE: $start - $end  USER $user\n";
$qry->addcond('uname', $qry->QCSTREQ, $user);
$qry->addcond('time', $qry->QCNUMGE, $start);
$qry->addcond('time', $qry->QCNUMLE, $end);
$qry->setorder('time', $qry->QONUMASC);
$qry->setlimit(100);
my $rv = $qry->search();

完全乱数だと実行結果の比較がしにくいので、検索時刻範囲やユーザ名は、剰余によって、同じものが決まった順番で繰り返し出るように細工してあります。

_ [Linux][開発] ベンチマーク

search.plの100クエリーの総実行時間(秒)

ざっと3倍高速化

各クエリーのラウンドトリップタイムの分布(X軸: 試行回数, Y軸：秒)。

条件によってはオリジナルの方が速いこともありますが、概ね安定していることがこのパッチのメリットであります。

当たり前ですが

検索結果自体はパッチ前と後で同じです(grep KEY:したテキストを比較して確認)。ただし、このパッチでは20秒以上かかる検索は問答無用で打ち切りますので、検索結果が異なることはあります。

_ [Linux][開発] なぜ速くなるのか？

検索条件に対して投機的コスト算定とソーティングを行っているためです。但し、まともな算術アルゴリズムではなく、tctdbqryidxfetch()にタイムアウトを付加したアドホックなものです。Athlon64/2.4GHzより速かったり遅かったりするマシンでは動かないかもしれません。

[ツッコミを入れる]

本日のリンク元

2001|04|

2006|07|08|09|10|11|12|

2007|01|02|03|04|05|06|07|08|09|10|11|12|

2008|01|02|03|04|05|06|07|08|09|10|11|12|

2009|01|02|03|04|05|06|07|08|09|10|11|12|

2010|01|02|03|04|05|06|07|08|09|10|11|12|

2011|01|02|03|04|05|06|07|08|09|10|11|12|

2012|01|02|03|04|05|06|07|08|09|10|11|12|

2013|01|03|04|05|06|07|08|09|10|11|12|

2014|01|03|04|05|10|

このサーバーをもう12年も維持しているかと思うとめまいがしますよ。
ツッコミ機能は、ハンドル名が完全日本語じゃないと登録できません。
また、本文にURLが含まれていても登録できません。
いずれもSPAM対策です。

訪問者数：(11778+2560143)

2010-06-29
- iPhone4のカメラには青カビが潜んでいる
2010-06-28
- TokyoCabinetの複合検索を高速化した
- 内容説明
- ベンチマーク
- なぜ速くなるのか？
2010-06-26
- 普通の携帯はそのまま使うのになあ
- Brighton CRYSTAL CASE For iPhone 4 BI-IP4CRL/C
- BUFFALO 液晶保護フィルム&背面保護フィルム BSIPP5FS
- Brighton TPUケース TPU CASE FOR iPhone 4 ブルー BI-IP4TPU/B
- 理想のケースを求めて...
2010-06-24
- iPhone4機種変完了
- しかし汚いわ
2010-06-22
- URoad-7000のちょっとどうかなと思うところ
- でも速い！
- でもシビア
2010-06-21
- URoad-7000の起動時間
- レイテンシが長い
- とはいえもう少し努力しようか...
2010-06-20
- 我慢は身体に良くない（長文注意）
- シンセイURoad-7000
- 速度はどうよ？
2010-06-19
- 弟の引っ越しを手伝いに
- お茶の郷
- いまさら思い出した
2010-06-14
- ただひとこと
- しかしリアルタイムではどこも中継しねーのな！！テレビは！！
- 近い将来
2010-06-13
- BOOKSCAN
- スキャンの品質は....
- 出版の真の敵
2010-06-10
- TokyoCabinet/Tyrantの複合検索について
- しかしこれが遅い
- ソースコードを追いました
- さらに良くないことに....
- なのでadhocパッチ
- Lua拡張
2010-06-06
- そういやIntel SSDの具合は....
- smartmontools
2010-06-04
- 副作用ないとか書いたmgetが...
- あれ？これやばくね？
2010-06-03
- TokyoCabinet(Tyrant)のパフォーマンス
- 読んだ限り
- さらに速くする方法もしくはmget知らなかったバカを責めて
- しかし....