VUI(音声ユーザーインタフェイス)の先にあるもの

機械に向かって話しかけたりすると、一昔前は「あいつヤバイ…」と白い目を向けられたのも今は昔、今では当たり前の光景になりました。

PCやスマホ、スマートスピーカー、家電やデジタルサイネージなど様々なところで音声ユーザーインタフェイス(VUI:Voice User Interface)が使われています。

ティファナ・ドットコムが、VUIのAIさくらさんを提供しはじめて、はや5年…。
VUI自体は結構古くからある技術ですが、昨今の事情も鑑みて今後更に普及してゆくことが予想されます。

そんなVUIの更にその先について考えて見たいと思います。

VUI苦難の歴史

今でこそ”使える”技術となりましたが、ちょっと前まではなかなか普及の難しい技術でした。

歴史は古く、国内でも1960年代から研究され始め、ほんの5、6年ほど前までは、ある一定の条件下でやっと使える状態になるかな…といったものでした。

例えば、話者の音声データ(音響モデル)を構築することで、やっとその話者個人が使う物として使えるレベルになるイメージです。

何がそんなに難しいのかというと、まず第一に人間の声とそれ以外の音を、コンピューターは区別できないのです。
人間であれば騒音の中でも、人の声とそれ以外を瞬間的に聞き分ける事が出来ます。

コンピューターの場合は、人間の声はどんな成分で出来ていて、どのあたりの周波数帯で構成されているか…と言った事をイチから教え込まないといけません。

また、2番目に難しいのが言語モデルの構築です。
当然ですが、言語ごとに文法も違えば、発音の仕方も違います。
いま、日本語で喋っていますよー、と言う事をあらかじめ設定することで、認識精度を上げているわけです。

例えば、「わたし」と言う単語の後には「は」「が」「に」「と」「を」「の」のどれかの音が来ることが多い…みたいな統計モデルを元に、音を判断して精度を上げるのです。
コレにものすごい費用と人材と時間が投下され、50年たっても普及にはまだ微妙…という状態だったんですね。
私も、ドラゴンスピーチというソフトを使って、自分の音響モデルを構築(様々な文章をソフトの指示通りに読み上げる)し、PCの操作を音声でできる様にしたことがあります。
それでも精度は少し怪しい感じだったのを覚えています。

しかし、ここにきて革命が起きます。
音声認識の精度が飛躍的にアップしたのです。

AIのニューラルネットワークと、それを幾重にも積み重ねて学習させるディープラーニング技術。そして、そこに注ぎ込まれた膨大な数の音声データーが、それを実現させてくれました。

個人の音響モデルを登録することなく、誰でもVUIが手軽に使える様になったのは、AIのおかげなのです。

VUIの先にあるもの

AIさくらさんは、おかげさまで少しは名の知れた存在になりまして、今も様々な場所で活躍しています。
VUIを使うものとしては、店頭や駅で元気に働いています。

AIですので、音声で直接操作すると言うよりは、認識した言葉を理解して最適な回答を出すと言う形になりますが、音声認識部分はVUIと一緒の概念ですし、音声認識とPCの操作を直接つなげることも可能になっています。

「さくらさん、今日の重要なメール表示して」と話しかければ、RPAと連携して一定条件のメールを検索して表示したり、「○○さんに電話繋いで」と言えば、直接電話をかける掛ける事だって可能になっています。

ただ、スマホやサイネージなどがそうですが、VUIだけで完結できないことがほとんどで、VUIで操作した後に必ず画面にタッチする操作が必要になってきます。
昨今の感染リスクを考えると、自分のスマホはともかく、誰が触ったかわからないようなものにはできるだけ触りたくないですよね。

そこで我々は、ジェスチャーUIというものも開発しAIさくらさんに実装しました。
画面にタッチすることなく、手をかざすだけで操作可能にした物です。
かざした手に合わせてカーソルを動かしたりすることはもちろん、ジェスチャーによる操作も可能です。

では、その先はどうなるのでしょうか。

声で操作できるようになり、触れずにジェスチャーで操作できるようになった更にその先のものがあるとすれば…

ピンと来た方もいるのではないでしょうか。

そう、脳波です。

こちらも研究自体はかなり前から進められており、特に医療分野での研究が盛んです。

四肢に麻痺がある方が、手を使わずにPCを操作したり、義手・義足をより直感的に動かすために日々開発が進められています。
義肢の場合は脳波と言うよりは、筋肉に送られる電気信号を読み取る方式の方が主流ですが…

脳自体、電気信号で情報伝達を行っているので、その信号が読み取れれば理論上はうまくいくはずなのですが、
脳波に個人差が大きいことと、ノイズが多いことで難航しているようです。

それでも上下左右のどこへ意識を集中しているか…くらいは読み取れるようになってきているので、このあたりもAIがディープラーニングでさらに最適化していって、実用に耐えうるレベルまで引き上げてほしいものです。

現状では、脳波による操作で1文字打つのに20秒かかります。これが現在最速らしいですね。。。
頭に思い浮かべたものを瞬間的に文章化してくれたり、音声でやりとりする裏で、電脳による無音声コミュニケーションで…

なんてことはまだ夢でしょうか