Friday,September 2

よみがな自動(じどう)処理(しょり)への(みち)【1】その()は「めかぶ」 (03 photos)

漢字(かんじ)によみがなをうつ処理(しょり)
前回(ぜんかい)前々回(ぜんぜんかい)のログでは、スタジオムーンリーフでおこなっている「(はん)自動(じどう)処理(しょり)」のやり(かた)をご紹介(しょうかい)しました。

このやり(かた)は、漢字(かんじ)(たい)してオールマイティにどんなよみがなもうてるという長所(ちょうしょ)はあるものの、「文章(ぶんしょう)()みあげるのに時間(じかん)がかかる」「誤字(ごじ)脱字(だつじ)のリスクがあがる」という短所(たんしょ)もあります。

ながいあいだ、この短所(たんしょ)(おぎな)方法(ほうほう)はないものかと(あたま)(なや)ませておりました。


さて。
()のなかにはテキストを解析(かいせき)するプログラムが存在(そんざい)します。
文章(ぶんしょう)文節(ぶんせつ)区切(くぎ)って、品詞(ひんし)をつきとめるプログラムです。
この解析(かいせき)手法(しゅほう)は「形態素(けいたいそ)解析(かいせき)」と()ばれており、英語(えいご)のみならず日本語(にほんご)においても研究(けんきゅう)(すす)められてきました。

形態素(けいたいそ)解析(かいせき)」プログラムは、身近(みぢか)なところではインターネットの検索(けんさく)(まど)入力(にゅうりょく)される検索(けんさく)()解析(かいせき)して検索(けんさく)候補(こうほ)表示(ひょうじ)するときに使(つか)われたり、音声(おんせい)解析(かいせき)プログラムに使(つか)われたりしています。

形態素(けいたいそ)解析(かいせき) - Wikipedia
https://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90

「スタジオムーンリーフのような弱小(じゃくしょう)事業(じぎょう)(しょ)じゃ、導入(どうにゅう)するのは(むずか)しいだろうなあ」と(かんが)えておりましたら、なんとフリーで配布(はいふ)されている「形態素(けいたいそ)解析(かいせき)」プログラムを()つけてしまいました。

その()は「Mecab(和布蕪(めかぶ)=めかぶ)」です。

Mecab(和布蕪(めかぶ)=めかぶ)
http://taku910.github.io/mecab/

コマンドラインから日本語(にほんご)入力(にゅうりょく)すると、形態素(けいたいそ)解析(かいせき)結果(けっか)出力(しゅつりょく)してくれるプログラムです。
ダウンロード、インストールともにフリー。
なんてありがたい。

この機能(きのう)使(つか)えば、よみがなを(ぜん)自動(じどう)でうてるようになるかもしれないと、さっそくダウンロード&インストールいたしました。

しばらくのあいだ、このログではMecab(和布蕪(めかぶ)=めかぶ)導入(どうにゅう)までの道筋(みちすじ)と、よみがな自動(じどう)処理(しょり)確立(かくりつ)するまでの奮闘(ふんとう)をお(つた)えしたいと(おも)います。

インストールした環境(かんきょう)のOSはWindows7です。
Mecabはコマンドで入力(にゅうりょく)するタイプのプログラムなので、おそらくWindows8でもWindows10でも(うご)くかと(おも)います。

まず、インストールしたMecabを起動(きどう)するとこんな味気(あじけ)ない画面(がめん)表示(ひょうじ)されます。

よみがな自動処理への道【1】その名は「めかぶ」_sb_01.png

まあ、なんて味気(あじけ)ない画面(がめん)


コマンドプロンプトの使(つか)いかたと(おな)じです。
ためしに、今回(こんかい)のログのタイトルをコピペして形態素(けいたいそ)解析(かいせき)をやってみます。

よみがな自動処理への道【1】その名は「めかぶ」_sb_02.png

コピペ、コピペ


そしてEnter。
Mecabによる形態素(けいたいそ)解析(かいせき)がおこなわれます。

よみがな自動処理への道【1】その名は「めかぶ」_sb_03.png

はい、ごにょごにょと表示(ひょうじ)されました


デフォルトだとこのように解析(かいせき)されます。

ようく()てください。
それぞれの(くだり)最後(さいご)項目(こうもく)は「発音(はつおん)()み」、最後(さいご)から2番目(ばんめ)項目(こうもく)が「()み」の解析(かいせき)データです。
ひらがなとカタカナはどうでもいいですが、漢字(かんじ)(たい)してもちゃんと「()み」が解析(かいせき)されています。

今後(こんご)、これを利用(りよう)することを(かんが)えていきます。

さしあたり、コマンドプロンプトからMeacabを使(つか)えるようにしたいと(おも)いますが、それはまた(つぎ)のログで。

ちなみに、コマンドプロンプトを終了(しゅうりょう)する場合(ばあい)は「exit」コマンドを入力(にゅうりょく)すればいいですが、Mecabは(つね)解析(かいせき)(ぶん)入力(にゅうりょく)()ちの状態(じょうたい)なので「exit」と入力(にゅうりょく)しても終了(しゅうりょう)しません。
ウインドウ(みぎ)(じょう)の「×」ボタンをクリックするか、Ctrl+Cで強制(きょうせい)終了(しゅうりょう)させます。


≫ NEXT_LOG よみがな自動(じどう)処理(しょり)への(みち)【2】パスれ!(07 photos)

≪ PREV_LOG 漢字(かんじ)によみがなをうつ【後編(こうへん)(02 photos)

PAGE UP

Google+

スタジオムーンリーフ(2005年1月開設/Since 2005)
代表者:野口 卓洋(Takuhiro Noguchi)
Add:356-0006 埼玉県ふじみ野市霞ヶ丘3-1-22-504

Twitter:@StudioMoonLeaf
Facebook:facebook.com/noguchi.takuhiro


©2017 STUDIO MOON LEAF ALL RIGHTS RESERVED.