ViaVoice ミレニアム for Macintosh(日本語版)が本日発表されました。価格は12000円で、システム必要条件はCPUがG3、266MHz以上のアナログ音声入力を内蔵したMacintosh、MacOS 8.5.1以上ですから、PowerBook G3 Series、PowerBook (FireWire)の殆どが対象になります。
製品にはノイズキャンセル機能を内蔵したヘッドセットが付属しています。028_Andrea Electronics NC-71が付属しますが、付属するパーツの交換で5色のiMacカラーに模様替えできます。ブラックモデルが無いことは、PowerBookとのコーディネートを考えると少し残念です。
ViaVoiceは8万語の基本辞書と、単語追加時に役立つバックアップ辞書をWindows版よりも多い15万語持っています*1。最初から全てを利用するのではなく8万語に絞ってあると考えるべきで、使い込み、自分専用の用語を追加登録することで認識率が上昇します。
連続音声認識技術が実用性を帯びたキーテクノロジーは030_Word Modeling Treeにあります。IBMは日本語を統計的手法で徹底的に分析し、3つの単語の並びの出現頻度を調査したのです。ここに、日本語文法などをいたずらに持ち込まず、純粋に出現確率を参考に、029_DP path matchingの検索範囲を絞り、
|
背反する高速性と認識精度の両方を手にしたのです。
認識機構を理解した上で、より精度を上げる「読み上げ方」を実行しましょう。
単語間の関連を重視するので、読み上げはある程度一気に文章を発音するべきです。パターンマッチングに掛ける時間が不足すると、マッチングを途中でうち切ってしまうので、適度な「間」は必要でしょう。ただし、認識速度と精度の度合いはスライダーで調節出来るので、クロック数の遅めな機種では、強制的に精度に振ることも出来ます。通常は「オート」で良いとのことです。
認識がうまくいかないからといって、「認識がぁ」「うまくぅ」「いかない、まるぅ」などと意図的に切ると、さらに状況は悪化します。「認識がうまくいかない、まる」と一気に喋り、少しまってあげるのが良いようです。
ただ、PowerBook G3 Series 333/14と現在の標準からはやや遅い機種でも、待たないでぺらぺらと読み上げて十分実用になるのは驚きです。
平板に発音するのがこつで、口語的口調でしゃべり掛けると認識結果はまったく意味をなさないほど乱れてしまいました。
ViaVoiceは特定話者向け音声認識ソフト |
であるため、使用開始時にはエンロール作業が必要です。この作業は2段階に分かれておりクイックエンロールは短い3行ほどの文章を読み上げるだけで終了します。導入から1分も有れば試しに使うことが出来るのです。
実用精度を得るにはやはり15分前後かかるエンロール作業を行うべきでしょう。これも文章を読み上げるだけで、失敗して最初から読み直すということがないように改良されています。
これらの学習結果はユーザー毎に記憶されます。ユーザーの切り替えはViaVoice上で管理されています。現状でMacOS 9のマルチユーザー環境と連動することは考えられていないそうです。(あるユーザーでログインしたあと、ViaVoice側で違うユーザーを指定できない、もしくはその逆が生じるおそれがあるとのこと)
専門用語辞書などのカスタマイズ作業は1000万円単位の費用を掛ければ可能だそうですが、個人ユーザーとは無縁です。そのかわり標準で供給されるボキャブラリエクスパンダを使用すると、指定した文章ファイルから学習が必要な単語を抜き出して、パーソナルボキャブラリに追加するよう促してくれます。地道な作業さえ惜しまなければ、カスタム辞書の作成は可能です。
余談ですが、私はユーザー毎の特定話者学習機能とは別にグループ間での専門用語や発生頻度などの学習情報の共有化機能の搭載を希望します。
|
最後に他アプリケーションとの連携について触れたいと思います。現在、対応しているのは
- クラリスワークス(ワープロ部分)
- MicroSoft Word
- America Online (メール部分)
- Netscape communicator(メール部分)
- Microsoft Outlook Express
だけになります。例えば「クラリスワークスへ転送」とボイスコマンドを入力すれば、クラリスワークスが自動的に起動し031_SpeakPadでの編集内容がコピーされます。
インプットメソッド(IM)的な使用方法を期待した人は失望するかもしれませんが、現在、ViaVoiceの全機能がSpeakPadと呼ばれるアプリケーションで供給されているの
|
で仕方がありません。連携にはカットアンドペーストが可能ですからそれほど困ることはないでしょう。Apple Worksに対応していないのはローカライズのミスでしょうか。
Windows版ではSDKも存在し、音声認識の一部を搭載したソフトウェアも発表されています。*2 Macintosh版は今始まったばかりという印象は拭えません。
実際、Windows版と比較すると、文章が出力されるまで若干のもたつきを感じます。また、句読点の自動入力機能は搭載が見送られました。Macintoshプラットフォームへの開発者の不慣れが見え隠れします。
浮動小数点演算を多用する認識エンジンのブラッシュアップがすすめば、実質ファーストバージョンであるMac版の今後の未来は明るいと思います。
|
キーボードを打つことが苦痛でない人にとっては、コンピュータに向かって喋るという作業は、気恥ずかしいし、ストレスがたまるかも知れません。
しかし、口述筆記が可能な精度があり、大量の文章入力を必要とする新聞記者や文筆家が、実際に使っているとも聞ききました、
気分を変えてコンピュータに向かいたい時によいかもしれません。それよりも、キーボードアレルギーの多くの医師には電子カルテがぐっと近づいた気がします。
-
*1ViaVoiceミレニアム日本語版〜製品紹介
- *2IBM ViaVoice Developer フォーラム
|