ぱぱネット（仮）

2009-04-28 もう全部バイトストリームでいいじゃないか [長年日記]

_ 俺が馬鹿なだけなの

Perl 5.8.x における日本語コード変換のメモ。 Perl 5.8.x Unicode関連。 perl5.8のUnicodeサポート。もーこれで理解できます?

俺はもうあきらめました...

元々 ARIB8単位符号体系の追加記号集合(ARIB STD-B24 p1v2 Table7-20とか)を、 Webアプリ上で正しく扱うためにUnicodeサポートが必要だっただけなのに。

_ よくわからんが

既存のPerlモジュールもCGI.pm内部コード問題みたいなのが普通に放置されている現状。

とりあえずuse Encode;しただけで各モジュールの動作が変わってしまうとかマジでやめてくれないだろうか。 Perl 5.8以前でJcode.pmを使っていたように、明示的に呼び出した部分だけ適切な文字コード変換を行ってくれるだけでいいんだが、こんな簡単なことさえ実現することができない俺。PerlIOムッ殺す。

use open IO  => ":utf8";
use open ":std";

しててもCGI上でprintすると Wide character in printって怒られる。

頼みの綱のEncode::Guessは、検索用のform文に入力されるような短い単語だと頻繁に例外吐いて落ちる... 。 Encode::Guess::guess_encodingで候補リストチェックしてると結構長い単語でも2つ以上候補があるし。

shiftjis or utf8 at /usr/lib/perl/5.8/Encode.pm line 186

これはほっとけば時間が解決するのか?もういっそ別のプラットホームに移行した方が早い気がしてきた。

本日のツッコミ(全6件) [ツッコミを入れる]

_ FIRST (2009-04-28 12:48)

use Encode;しただけでモジュールの動作変わります?(use encoding;はまた別ですが…) use openのところは、順番逆にしたら動くような気もします。

_ ぱ (2009-04-28 14:01)

ごめんなさいuse Encodeの件は勘違いでした(use utf8とごっちゃ?)。 ちなみに ------------unk2uni.pl-------------- use strict; use Encode; use Encode::Guess qw/euc-jp shiftjis 7bit-jis/; sub uni2uni::utf8 { my ($str) = @_; my $decoder = Encode::Guess::guess_encoding($str); if (ref $decoder && $decoder->name !~ m!or!) { return Encode::encode('utf8', $decoder->decode($str)); } else { return $str; } } 1; ------------a.pl--------------------- require 'unk2uni.pl'; my $a = 'やじうまプラス'; # euc-jp print &unk2uni::utf8($a); ------------------------------------- けっこう長いと思うんだけど、EUC-JP×, 7bitJIS○, シフトJIS○でした。 なんで、現状Encodeを使う気力はなく、use utf8せずIO回りはバイトストリームのままで、 メンテされてなさげなJcode.pmを細々使う...という戦術で逃れることにしますた。 ダメですかね。

_ もぽ (2009-04-29 13:29)

とりあえずPerlにしろEncodeにしろCGIにしろ問題が再現するバージョンを示さないといろいろな意味でしょうのない記事だとおもいますたがどうか。

_ こにしか (2009-04-29 14:04)

とりあえず、 sub unk2uni::utf8 { my ($str) = @_; my $decoder = Encode::Guess::guess_encoding($str); if ( ref $decoder && $decoder->name !~ m!or! ) { return Encode::encode( 'utf8', $decoder->decode($str) ); } else { Encode::from_to( $str, "euc-jp", "utf8" ); return $str; } } たとえば、こうすればいいんじゃないかと……

_ もぽ (2009-04-29 14:26)

ちょろっと実験してみたけど、guess_encodingを2パラメータ形式で使って、一段目はshiftjis抜き、それで失敗した時だけ二段目としてeuc-jp抜き、の二段階でguessするようにしてみたら、euc-jpでもsjisでもやじうまプラス攻略できたお。あんまりキレイじゃない気もせんでもないけど。（Perl 5.8.8 / Encode 2.15） っつーワケで、わしはこれでもういいｗ。 まぁ「やじうまプラス」がテストケースとして有用なことがわかった点ではいい記事ですた。

_ もぽ (2009-04-29 14:31)

大雑把には my $decoder = guess_encoding($str, qw/utf8 euc-jp/); $decoder = guess_encoding($str, qw/shift-jis 7bit-jis) if (! ref($decoder)); if (ref($decoder)) { $ret = $decorder->decode($str); } else { ; Error } とか、そんな感じ。

2001|04|

2006|07|08|09|10|11|12|