ボイス一太郎奮闘記



最近のテレビの宣伝でIBMのCMを見られた方は多いと思います。
SMAPの香取慎吾君の出ているやつです。
パソコンに向かって喋ればそれが文字になる、「音声認識ソフト」が実用レベルに近づいたのです。
あたらしもの好きの私は、早速試してみたくなりました。
 しかし、これはマックには対象ソフトがなく私は個人的にはマックしか使ったことがなく、新たにウインドウズを使用する事に抵抗は有りましたが、キーボードアレルギーの人にもパソコンを使う動機付けになるのではないかと思い、2週間前にウインドウズ機(NEC LaVieNX)を購入し、早速音声認識ソフト「Voice 一太郎9」をインストールしました。
 何度も言いますが、私は初めてウインドウズ98を使うため、ウインドウズは全くの初心者です。しかしまあ、マックでの経験はありますので何とかウインドウズも使えそうな感じではあります。

さて、ここからが奮戦記です。 「 」内の文章の実際の認識結果を後で示しています
-
マイクの不良品あり-
 「ここから」「音声入力はマイクを使って自分の発音をパソコンに学習させる必要がありますが、これに手間取りました。最初、数日間いろいろやっても全く音声を認識してくれません。訳が分からず販売店や一太郎の会社、パソコンの会社、最後には音声認識ソフトの会社にも電話し相談しましたが結論出ず、どこも「問題なさそうだ」と言います。
 私も色々やってみてソフトの問題ではなさそうでしたのでパソコン本体のマイク端子が不良ではないかと思い、パソコンを再チェックしてもらうため販売店に送りました。販売店での検討の結果パソコン本体にも問題ないことがわかり、結局、一太郎に添付されていたマイクのジャックが不良でマイクを認識できなかった事がわかりました。別のマイクなら認識可能とのことで、マイクを交換してくれて本体は帰ってきました。それまでに1週間、時間を無駄にしました。
何のこった。

 そこで翌日から、夕食をすますと部屋に閉じこもり(雑音を控えるため)、マイクに向かってエンコール(音声認識の学習)を開始しました。
 音声認識には注意書きに、周辺の雑音を押さえるために出来るだけ静かな環境で行うことと書かれており、雑音を拾わないように、エアコンも止め、2階の部屋に閉じこもり、寒いのでジャンパーを着込んで始めました。外で愛犬が吠えているときには、大声で叱る事も出来ず、心配しながらのエンコールでした。
 後でわかったことですが周囲の雑音はあまり気にする必要はありませんでした。
 エンコール(音声認識の学習)そのものは1-2行の単文を声を出して読んで、その文の認識を確認してゆく繰り返しだけです、カタカナの読みにくい文章や何度読んでも認識しない文章もありましたが、認識しない文章は適当にとばしてやっと300文を読み終えました。「。」は、まると読み、「」は、カギカッコなどと読めば変換します。認識操作の繰り返しで2時間半くらいかかりました。
 と言っても初日は75文章で中断ができ、ここでで終了し、翌日に最後の300文が終わりました。
 その後、私の言葉とパソコン間の認識作業が始まり、パソコンが勝手にやっているようでしたので、コーヒーブレイクとし、居間でニュースを見て、ゆっくりして2階に上がってみましたがまだ作業中。これも4-50分かかりやっとエンコールが終了しました。
 パソコンに向かって、マイクを頭にかけて、ぶつぶつ話しかけている姿は、覗きに来た娘からも「まるでバソコンオタクね」と言われてしまいました。
ここまでやらねば音声認識は出来ません。

さて、その後の認識結果です。
 その後、早速確かめたくなり、新聞記事を読んだり、自分で発音したりして認識率を確かめましたが、これが思っていた以上に結構よいのです。OCR(スキャナーで文字を認識するソフト)で新聞を読ませた位の認識は出来ました。
 勿論OCRでは文字だけの認識違いですが、音声では前後の文を含めてとんでもない変換もありますがね。」ここまで
 また言語辞書は乏しいようで、医学用語の変換は十分ではありませんが、まあこんなものでしょう。
 何しろ一太郎9とAOTK12、IBMのViaVoice、マイク付きで22000円(ユーザー割引・私はマックでATOKのユーザー)ですから、我慢しましょう。定価は28000円です。ワープロソフトだけでも昔の値段では買えない価格ですので、「だめ元」で買っても良いくらいの値段です。ボイスに飽きたり、使わねば通常の一太郎9の機能はすべてあります。文字変換もATPK12ですので最新版です。
 すでに一太郎やATOKを使っておられるならば、IBMのViaVoiceだけ購入されても音声認識は可能で、出来上がったテキストを、ワープロソフトに転送してやれば良いだけです。これはマイク付きで10000円位です。

 これからもっと練習すれば認識率は向上するはずです。テキストを入力する画面では一太郎以外のアプリケーションでも使えますし、なれれば役に立つと思います。
 発音と文字の違いの修正は、発音で訂正すれば認識率が上がるようですが、まだ時間がないのでやっていません。間違った文字は、キーボードで修正しています。
 何しろウインドウズ歴2週間の私ですから、どこに何があるやらわからないのが現状です。それにしてもウインドウズのディレクトリとは何と複雑なものでしょう。これに比べるとマックの扱い易さが断然です。

さて、誰もが使えるか。
 キーボードに問題ない人はパソコンに向かって話しかけるのは何か異様な感じですし、キーボートを打つ方が文章を作るのは早いかもしれません。
 使い方として、手書きの文章やファクスの文章等を読み上げてテキストとして保存したり、清書するのが一番使えるかも知れません。
 昔、手書きで書いたご自分の短文や回想録、論文等ををテキストにして保存しておきたい人にはお勧めです。
 と言うのは、一般的に文章を作る場合、考えながらキーボードを打ち、訂正を加えながら書いてゆくわけですが、音声認識はスムースに発声しないと認識してくれません。途中で「あっ、違った」とか「くそ」とか発声するとそのまま文字に変わりますし、通じない言葉は全く意味の違う文字に変わってしまいます。ぼつりぼつり話すのには、不向きだと思います。
 だから、初めて使う人は、ある程度文章を手書きにするかして、出来上がった文章を、ゆっくり、分かりやすく、スムースに発声しなければならないわけです。
 また誰もが使うことはできません。エンコールした者しか認識は出来ませんので、同じパソコンを家族など数人で使うなら、名前を登録し、別々にエンコールする必要があります。
 今後医師会の病診連携やネットワークの整備のためには出来るだけ多くの方にパソコンを利用していただかねばなりません。そこで、この音声入力システムを、地元医師会でキーボードアレルギーの方たちにデモを考えています。

 パソコンの初心者がインストールからエンコールなどを、すぐに出来るとは思えませんが、すでにパソコンはここまで出来る様になったのだと感じていただいて、購入の動機付けになればと思いますし、購入して色々やってみて慣れれば、キーボードアレルギーもなくなるでしょうし、音声入力もそれなりに使い道が見つかるかも知れません。

 興味有れば、是非やってみてください。面白いソフトでした。

              平成11年1月26日 玖珂中央病院 吉岡春紀


ここからは実際の認識結果を表示してみます。
本文の一部をボイス一太郎で認識した、全く修正していない文章です。
認識できなかった部分に文字を赤で下線をを引いています。ご参考までに。

ボイス一太郎での訂正前認識結果 
さて、ここからが奮戦記です
 音声入力はマイクを使って自分の発音をパソコンに学習させる必要がありますが、これに手間取りました。最初、数日間でいろいろやっても全く音声を認識してくれません。訳が分からず販売店や一太郎の会社、パソコンの会社、最後には音声認識ソフトの会社にも電話し相談しましたが結論でず、どこも「問題なさそうだ」といいます。
 私もいろいろやってみてソフトの問題ではなさそうでしたのでパソコンの本体へのマイク端子がではないかと思い、パソコンを再度チェックしてもらうため販売店に送りました。販売店での検討をの結果パソコン本体にも、結局、一太郎に添付されていたマイクのジャックが不要でマイクを認識できなかったことがわかりました。別のマイクは認識可能とのことでマイクを交換してくれて本体は帰ってきました。それまでに一週間、時間を無駄にしました。暖炉起こった。

 そこで翌日から、夕食をすますと部屋に閉じこもってい雑音を控えるため、マイクに向かって、音声認識の学習を開始しました。
 音声認識には注意書きに、周辺の雑音を押さえるためにできるだけ静かな環境で行うことをかかれており、雑音を拾わないように、エアコンもと目次回部屋に閉じこもり、寒いのでナンバーを着込んで始めました。外で会見がほえるときには、大声でしかることもできず、心配しながらの、、高級でした。
 後でわかったことでが周囲の雑音はあまり気にする必要はありませんでした。
音声認識の学習そのもの配置-にようの単文を声を出して呼んで、その文の認識を確認してゆく繰り返しだけですが、カタカナの読みにくい文章や何度呼んでも認識しない文章もありましたが、認識しない文章は適当にとばしてやっと三百を読み終えました。
認識操作の繰り返しで二時間半くらいかかりました。
といっても初日は七十五文章で中断ができ、ここで終了しいとこ最後の三百トンが終わりました。
 その後、私の言葉とパソコンのの認識作業が始まりパソコンが勝手にやっているようでしたので、コーヒーブレークとし、今で重数をみて、ゆっくりして次回にあがってみましたが、まだ作業中。これも四十分から五十分かかりやっと、コールが終了しました。
 パソコンに向かって、マイクを頭にかけて、ぶつぶつ話しかけている姿は、のぞきにきた娘からも「まるでパソコンお宅」といわれてしまいました。
ここまでやらねば音声認識はできません。

さて、その後の認識結果です。
 その後、早速お確かめ宅なり、新聞記事を読んだり、自分で発音したりして認識率を確かめましたが、これが思っていた異常に結構よいのです。スキャナーで文字を認識するソフトで新聞を読ませたくらいの認識はできました。もちろんOCRでは文字だけの認識違いですが、音声では前後の盆を含めてとんでもない変換もありますがね。

下線部分が変換違いです。読み方の問題と意味不明の2種類があるようです。
練習させればもっと変換効率は良くなると思います。


詳細は一太郎ホームページへ
 VOICE一太郎ホームページ

岩国玖珂ドクターズマックのページに戻ります。