よみがな自動処理への道【６】全角カタカナ→全角ひらがな

Thursday,September 8

よみがな自動(じどう)処理(しょり)への道(みち)【６】全角(ぜんかく)カタカナ→全角(ぜんかく)ひらがな

前回(ぜんかい)のログで、PerlからMeCabにコマンドを送信(そうしん)して、その形態素(けいたいそ)解析(かいせき)の結果(けっか)を受(う)けとれるようになりました。
でも、解析(かいせき)結果(けっか)をよみがなにするためには、まだいくつかのヤマがあります。

そのヤマのひとつ。
Mecabの形態素(けいたいそ)解析(かいせき)の「読(よ)み」の部分(ぶぶん)は「全角(ぜんかく)カタカナ」です。
ウェブで自然(しぜん)なよみがなとして表示(ひょうじ)するためには、この「全角(ぜんかく)カタカナ」を「全角(ぜんかく)ひらがな」に置(お)き換(か)える必要(ひつよう)があります。これがひとつめのヤマ。

今回(こんかい)のログは「全角(ぜんかく)カタカナ」→「全角(ぜんかく)ひらがな」の置(お)き換(か)えについてご紹介(しょうかい)します。

覚(おぼ)えてますか？
「よみがな自動(じどう)処理(しょり)への道(みち)【３】Shift-JIS→UTF8へ　で、MeCabの文字(もじ)コードをUTF8にしたこと。

そうなんです。
ウェブで使(つか)われている文字(もじ)コード、Perlで使用(しよう)している文字(もじ)コード、そしてMeCabの文字(もじ)コードすべてがUTF8に統一(とういつ)されているんです。

UTF8はウェブで表記(ひょうき)するには使(つか)い勝手(がって)のよい文字(もじ)コードなんですが、プログラムで扱(あつか)うには厄介(やっかい)な文字(もじ)コードです。

UTF8は２バイト～最大(さいだい)８バイトまでの可変長(かへんちょう)な文字(もじ)コードで、そのなかでも半角(はんかく)英数字(えいすうじ)や半角(はんかく)記号(きごう)（アスキー文字(もじ)）は２バイト、日本語(にほんご)の全角(ぜんかく)文字(もじ)は３バイトで組(く)まれています。ウェブで表記(ひょうき)するぶんには、２バイト文字(もじ)と３バイト文字(もじ)が認識(にんしき)できれば充分(じゅうぶん)だと思(おも)います。

この３バイト文字(もじ)・日本語(にほんご)が厄介(やっかい)でして。
Perlをはじめプログラムは２バイト文字(もじ)を扱(あつか)うことが基本(きほん)設計(せっけい)になっていることが多(おお)いため、不用意(ふようい)に３バイト文字(もじ)・日本語(にほんご)を扱(あつか)うととんでもないことになることがあります。

これを解決(かいけつ)する方法(ほうほう)は、日本語(にほんご)が２バイトになっている別(べつ)の文字(もじ)コードに変換(へんかん)して処理(しょり)を行(おこな)ったのち、UTF8に変換(へんかん)し直(なお)すとか、UTF8でも変換(へんかん)に特(とく)化(か)したモジュールをさがして、それを利用(りよう)するとか。

スタジオムーンリーフでは、「全角(ぜんかく)カタカナ」→「全角(ぜんかく)ひらがな」は変換(へんかん)のなかではシンプルなほうと考(かんが)え、オリジナルでコードを書(か)きました。

そもそも、プログラムは２バイト文字(もじ)が基本(きほん)設計(せっけい)です。
そこにUTF8の３バイト文字(もじ)・日本語(にほんご)を持(も)ちこんでも、プログラムは文字(もじ)の区切(くぎ)りを識別(しきべつ)できません。でも、３の倍数(ばいすう)バイト長(ちょう)のなにがしかの文字(もじ)列(れつ)という風(ふう)には認識(にんしき)します。したがって、たとえ１文字(もじ)であっても３バイト文字(もじ)を「文字(もじ)列(れつ)」として考(かんが)えれば意図(いと)した処理(しょり)が組(く)めるんです。

お見(み)せするのは恥(は)ずかしいのですが、ネットで検索(けんさく)をかけても納得(なっとく)できる感(かん)じのサンプルコードを見(み)つけることができなかったので公開(こうかい)します。

文字(もじ)コードUTF8で「全角(ぜんかく)カタカナ」→「全角(ぜんかく)ひらがな」変換(へんかん)をするPerlコードです。
長(なが)いのでサブルーチン化(か)しました。

sub Kana2Kana{

　　my($string)=@_;

　　$string=~ s/ア/あ/gm;
　　$string=~ s/イ/い/gm;
　　$string=~ s/ウ/う/gm;
　　$string=~ s/エ/え/gm;
　　$string=~ s/オ/お/gm;
　　$string=~ s/ァ/ぁ/gm;
　　$string=~ s/ィ/ぃ/gm;
　　$string=~ s/ゥ/ぅ/gm;
　　$string=~ s/ェ/ぇ/gm;
　　$string=~ s/ォ/ぉ/gm;

　　$string=~ s/カ/か/gm;
　　$string=~ s/キ/き/gm;
　　$string=~ s/ク/く/gm;
　　$string=~ s/ケ/け/gm;
　　$string=~ s/コ/こ/gm;
　　$string=~ s/ガ/が/gm;
　　$string=~ s/ギ/ぎ/gm;
　　$string=~ s/グ/ぐ/gm;
　　$string=~ s/ゲ/げ/gm;
　　$string=~ s/ゴ/ご/gm;

　　$string=~ s/サ/さ/gm;
　　$string=~ s/シ/し/gm;
　　$string=~ s/ス/す/gm;
　　$string=~ s/セ/せ/gm;
　　$string=~ s/ソ/そ/gm;
　　$string=~ s/ザ/ざ/gm;
　　$string=~ s/ジ/じ/gm;
　　$string=~ s/ズ/ず/gm;
　　$string=~ s/ゼ/ぜ/gm;
　　$string=~ s/ゾ/ぞ/gm;

　　$string=~ s/タ/た/gm;
　　$string=~ s/チ/ち/gm;
　　$string=~ s/ツ/つ/gm;
　　$string=~ s/テ/て/gm;
　　$string=~ s/ト/と/gm;
　　$string=~ s/ダ/だ/gm;
　　$string=~ s/ヂ/ぢ/gm;
　　$string=~ s/ヅ/づ/gm;
　　$string=~ s/デ/で/gm;
　　$string=~ s/ド/ど/gm;
　　$string=~ s/ッ/っ/gm;

　　$string=~ s/ナ/な/gm;
　　$string=~ s/ニ/に/gm;
　　$string=~ s/ヌ/ぬ/gm;
　　$string=~ s/ネ/ね/gm;
　　$string=~ s/ノ/の/gm;

　　$string=~ s/ハ/は/gm;
　　$string=~ s/ヒ/ひ/gm;
　　$string=~ s/フ/ふ/gm;
　　$string=~ s/ヘ/へ/gm;
　　$string=~ s/ホ/ほ/gm;
　　$string=~ s/バ/ば/gm;
　　$string=~ s/ビ/び/gm;
　　$string=~ s/ブ/ぶ/gm;
　　$string=~ s/ベ/べ/gm;
　　$string=~ s/ボ/ぼ/gm;
　　$string=~ s/パ/ぱ/gm;
　　$string=~ s/ピ/ぴ/gm;
　　$string=~ s/プ/ぷ/gm;
　　$string=~ s/ペ/ぺ/gm;
　　$string=~ s/ポ/ぽ/gm;

　　$string=~ s/マ/ま/gm;
　　$string=~ s/ミ/み/gm;
　　$string=~ s/ム/む/gm;
　　$string=~ s/メ/め/gm;
　　$string=~ s/モ/も/gm;

　　$string=~ s/ヤ/や/gm;
　　$string=~ s/ユ/ゆ/gm;
　　$string=~ s/ヨ/よ/gm;
　　$string=~ s/ャ/ゃ/gm;
　　$string=~ s/ュ/ゅ/gm;
　　$string=~ s/ョ/ょ/gm;

　　$string=~ s/ラ/ら/gm;
　　$string=~ s/リ/り/gm;
　　$string=~ s/ル/る/gm;
　　$string=~ s/レ/れ/gm;
　　$string=~ s/ロ/ろ/gm;

　　$string=~ s/ワ/わ/gm;
　　$string=~ s/ヲ/を/gm;
　　$string=~ s/ン/ん/gm;

　　return $string
}

コールする時(とき)

my $hiragana='';
my $katakana='アイウエオ';

$hiragana = &kana2kana($katakana);
print $hiragana;

結果(けっか)〉あいうえお

文字(もじ)列(れつ)マッチング置換(ちかん)「s」の正規(せいき)表現(ひょうげん)を使(つか)うのはいいとしても、ごり押(お)しの力(ちから)技(わざ)にしか見(み)えません（笑(わら)）
mオプションは必要(ひつよう)ないかもしれませんが、とりあえず意図(いと)した通(とお)りに動(うご)くので放置(ほうち)してます。

もちろん、もっとスマートなコードはあると思(おも)います。
さしあたり１文字(もじ)の３バイト文字(もじ)を文字(もじ)列(れつ)として扱(あつか)おうと考(かんが)えるとこんな書(か)き方(かた)にしか落(お)ち着(つ)きませんでした。でも、見(み)た目(め)でわかりやすいでしょ？

コードをシンプルにしようと文字(もじ)マッチング置換(ちかん)「tr」を使(つか)って、

$string=~ tr/アイウエオ/あいうえお/gm;

$string=~ tr/ア-ン/あ-ん/gm;

といったコーディングをすると、エラーというか予期(よき)せぬ変換(へんかん)結果(けっか)が返(かえ)ってくるのでやめた方(ほう)がいいです。何(なん)度(ど)もいいますが、UTF8の日本語(にほんご)文字(もじ)は３バイト文字(もじ)。プログラムは文字(もじ)を２バイト文字(もじ)として認識(にんしき)しようとします。

「アイウエオ」は３バイト文字(もじ)×５の１５バイト。プロラグムでは、２バイト文字(もじ)７文字(もじ)とあまりの１バイトの文字(もじ)とマッチングするか、もしくは１バイト文字(もじ)×１５とマッチングしようとして、意図(いと)した通(とお)りに動(うご)きません。「ア-ン」も、「ア」自体(じたい)が３バイト文字(もじ)であるため同様(どうよう)です。

≫ NEXT_LOG よみがな自動(じどう)処理(しょり)への道(みち)【７】ヤマにも負(ま)ケズ

≪ PREV_LOG よみがな自動(じどう)処理(しょり)への道(みち)【５】PerlとMeCabはパイプでつながる