人間でさえ5割しか読み取れない読唇術を、機械が9割以上の精度でマスターした?

black-and-white-image-of-laughing-teenage-girl

Photo via Visualhunt.com

人の話していることを唇の形や動きから読み取る読唇術という技術がある。

これはなかなか難しい技術で、相手が意識的にわかりやすくゆっくりと口を大げさに開いて話してくれたとしても、それでもそうとう難しい。

この人にさえ難しい読唇術を、機械で行おうという試みは以前からあった。

しかし、せいぜい単語単位で読み取れるかどうかと言う、おおよそ実用性がない水準が続いていた。

しかし、人工知能を使って、一気に読み取り精度を向上させたという。

そこには、人間が行っている文脈からの推測を学習させるという発想の転換があった。

 

人間のプロを遙かに凌駕したAIの読唇術

読唇術の難しさは、プロでさえ読み取り精度が52%(英語の場合)と、約半分しか相手の言っていることがわからないという数字からも想像できる。

ところが、このほど英オックスフォード大学とGoogle DeepMindの研究者たちが共同で開発した『LipNet』というソフトは、機械学習を活用することで、なんと93.4%という高い精度で読唇術を実行できるようになった。

これは、これまでの機械による読唇術が単語レベルであったのに対し、人が読唇術を行う際には長い言葉ほど読み取り精度を上げていることに注目した結果だった。

単語単位ではなく、文脈で読み取るという発想の転換

人間のプロが読唇術を行う場合は、単語単位で正確に聞き取っているわけではなく、長い言葉、すなわち文脈から読み取れなかった部分を推測で補っているのだ。

そこで研究チームは、『LipNet』においてはGoogleのDeepMindを使った機械学習で、文章全体を解析して単語を正確に読み取るというアプローチを行った。

その結果『LipNet』は、世界で初めて文章レベルでの読唇術を実現し、話者が異なっても93.4%の読み取り精度を可能にしたのだ。

 

聴覚障害者をサポートする技術として期待される

この人間以上に高い読唇術の精度は、学習を重ねていくことでさらに高まる可能性がある。

この技術は、当然聴覚障害者をサポートする技術として応用されるだろう。

その使われ方はまだわからないが、たとえば相手が話している唇をスマートフォン越しに見れば、スマートフォンの画面には文字が表示されているといったアプリも登場するのではないだろうか。

あるいは、現在は音声から文字入力したり音声から検索したりするアプリがあるが、これらは周りに人がいるときには使いにくい。

それが『LipNet』の技術を使えば、スマートフォンのカメラに向かって声を出さずに話しかけても、文字入力や検索ができるようになるかもしれない。

AIを使った読唇術は他の言語にも応用できるであろうから、大いに期待される技術となりそうだ。

 

【参考】

※ Oxford Scientists Have an AI That Can Read Your Lips