Friday,September 2

よみがな自動処理への道【1】その名は「めかぶ」 (03 photos)

漢字によみがなをうつ処理。
前回、前々回のログでは、スタジオムーンリーフでおこなっている「半自動処理」のやり方をご紹介しました。

このやり方は、漢字に対してオールマイティにどんなよみがなもうてるという長所はあるものの、「文章を組みあげるのに時間がかかる」「誤字・脱字のリスクがあがる」という短所もあります。

ながいあいだ、この短所を補う方法はないものかと頭を悩ませておりました。


さて。
世のなかにはテキストを解析するプログラムが存在します。
文章を文節に区切って、品詞をつきとめるプログラムです。
この解析手法は「形態素解析」と呼ばれており、英語のみならず日本語においても研究が進められてきました。

「形態素解析」プログラムは、身近なところではインターネットの検索窓に入力される検索語を解析して検索候補を表示するときに使われたり、音声解析プログラムに使われたりしています。

形態素解析 - Wikipedia
https://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90

「スタジオムーンリーフのような弱小事業所じゃ、導入するのは難しいだろうなあ」と考えておりましたら、なんとフリーで配布されている「形態素解析」プログラムを見つけてしまいました。

その名は「Mecab(和布蕪=めかぶ)」です。

Mecab(和布蕪=めかぶ)
http://taku910.github.io/mecab/

コマンドラインから日本語を入力すると、形態素解析結果を出力してくれるプログラムです。
ダウンロード、インストールともにフリー。
なんてありがたい。

この機能を使えば、よみがなを全自動でうてるようになるかもしれないと、さっそくダウンロード&インストールいたしました。

しばらくのあいだ、このログではMecab(和布蕪=めかぶ)導入までの道筋と、よみがな自動処理を確立するまでの奮闘をお伝えしたいと思います。

インストールした環境のOSはWindows7です。
Mecabはコマンドで入力するタイプのプログラムなので、おそらくWindows8でもWindows10でも動くかと思います。

まず、インストールしたMecabを起動するとこんな味気ない画面が表示されます。

よみがな自動処理への道【1】その名は「めかぶ」_sb_01.png

まあ、なんて味気ない画面


コマンドプロンプトの使いかたと同じです。
ためしに、今回のログのタイトルをコピペして形態素解析をやってみます。

よみがな自動処理への道【1】その名は「めかぶ」_sb_02.png

コピペ、コピペ


そしてEnter。
Mecabによる形態素解析がおこなわれます。

よみがな自動処理への道【1】その名は「めかぶ」_sb_03.png

はい、ごにょごにょと表示されました


デフォルトだとこのように解析されます。

ようく見てください。
それぞれの行の最後の項目は「発音読み」、最後から2番目の項目が「読み」の解析データです。
ひらがなとカタカナはどうでもいいですが、漢字に対してもちゃんと「読み」が解析されています。

今後、これを利用することを考えていきます。

さしあたり、コマンドプロンプトからMeacabを使えるようにしたいと思いますが、それはまた次のログで。

ちなみに、コマンドプロンプトを終了する場合は「exit」コマンドを入力すればいいですが、Mecabは常に解析文の入力待ちの状態なので「exit」と入力しても終了しません。
ウインドウ右上の「×」ボタンをクリックするか、Ctrl+Cで強制終了させます。


≫ NEXT_LOG よみがな自動処理への道【2】パスれ!(07 photos)

≪ PREV_LOG 漢字によみがなをうつ【後編】(02 photos)

PAGE UP

Google+

スタジオムーンリーフ(2005年1月開設/Since 2005)
代表者:野口 卓洋(Takuhiro Noguchi)
Add:356-0006 埼玉県ふじみ野市霞ヶ丘3-1-22-504

Twitter:@StudioMoonLeaf
Facebook:facebook.com/noguchi.takuhiro


©2017 STUDIO MOON LEAF ALL RIGHTS RESERVED.