Friday,September 2
よみがな自動処理()への道()【1】その名()は「めかぶ」 (03 photos)
漢字()によみがなをうつ処理()。
前回()、前々回()のログでは、スタジオムーンリーフでおこなっている「半()自動()処理()」のやり方()をご紹介()しました。
このやり方()は、漢字()に対()してオールマイティにどんなよみがなもうてるという長所()はあるものの、「文章()を組()みあげるのに時間()がかかる」「誤字()・脱字()のリスクがあがる」という短所()もあります。
ながいあいだ、この短所()を補()う方法()はないものかと頭()を悩()ませておりました。
さて。
世()のなかにはテキストを解析()するプログラムが存在()します。
文章()を文節()に区切()って、品詞()をつきとめるプログラムです。
この解析()手法()は「形態素()解析()」と呼()ばれており、英語()のみならず日本語()においても研究()が進()められてきました。
「形態素()解析()」プログラムは、身近()なところではインターネットの検索()窓()に入力()される検索()語()を解析()して検索()候補()を表示()するときに使()われたり、音声()解析()プログラムに使()われたりしています。
形態素()解析() - Wikipedia
https://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90
「スタジオムーンリーフのような弱小()事業()所()じゃ、導入()するのは難()しいだろうなあ」と考()えておりましたら、なんとフリーで配布()されている「形態素()解析()」プログラムを見()つけてしまいました。
その名()は「Mecab(和布蕪()=めかぶ)」です。
Mecab(和布蕪()=めかぶ)
http://taku910.github.io/mecab/
コマンドラインから日本語()を入力()すると、形態素()解析()結果()を出力()してくれるプログラムです。
ダウンロード、インストールともにフリー。
なんてありがたい。
この機能()を使()えば、よみがなを全()自動()でうてるようになるかもしれないと、さっそくダウンロード&インストールいたしました。
しばらくのあいだ、このログではMecab(和布蕪()=めかぶ)導入()までの道筋()と、よみがな自動()処理()を確立()するまでの奮闘()をお伝()えしたいと思()います。
インストールした環境()のOSはWindows7です。
Mecabはコマンドで入力()するタイプのプログラムなので、おそらくWindows8でもWindows10でも動()くかと思()います。
まず、インストールしたMecabを起動()するとこんな味気()ない画面()が表示()されます。
まあ、なんて味気()ない画面()
コマンドプロンプトの使()いかたと同()じです。
ためしに、今回()のログのタイトルをコピペして形態素()解析()をやってみます。
コピペ、コピペ
そしてEnter。
Mecabによる形態素()解析()がおこなわれます。
はい、ごにょごにょと表示()されました
デフォルトだとこのように解析()されます。
ようく見()てください。
それぞれの行()の最後()の項目()は「発音()読()み」、最後()から2番目()の項目()が「読()み」の解析()データです。
ひらがなとカタカナはどうでもいいですが、漢字()に対()してもちゃんと「読()み」が解析()されています。
今後()、これを利用()することを考()えていきます。
さしあたり、コマンドプロンプトからMeacabを使()えるようにしたいと思()いますが、それはまた次()のログで。
ちなみに、コマンドプロンプトを終了()する場合()は「exit」コマンドを入力()すればいいですが、Mecabは常()に解析()文()の入力()待()ちの状態()なので「exit」と入力()しても終了()しません。
ウインドウ右()上()の「×」ボタンをクリックするか、Ctrl+Cで強制()終了()させます。
≫ NEXT_LOG よみがな自動()処理()への道()【2】パスれ!(07 photos)
≪ PREV_LOG 漢字()によみがなをうつ【後編()】(02 photos)