こんな名前でも笑っちゃいけないGoogleの人工知能「DQN」

こんな名前でも笑っちゃいけないGoogleの人工知能「DQN」のすごさ

その名称でネット上を騒がせた(?)Google傘下のDeepmindが開発した人工知能『DQN』。多くの方はご存じだと思うが、“DQN(ドキュン)”というのは、日本のネットスラングで“いわゆるヤンキーをはじめとした、知性に欠ける困ったひと”を指す言葉として使われている。

そのあまりに皮肉な偶然のネーミングのインパクトに押されて、そのGoogleの『DQN』自体がどういうモノなのかまでは気にかけなかったひとも多いのではないだろうか。そこで今回、Googleの研究者Dharshan Kumaran氏とDemis Hassabis氏が投稿したブログの文章から、『DQN』の内容を紹介しよう。

 

説明を受けずにテレビゲームができる

その投稿は、「ゲーム機『アタリ2600』の『ブレイクアウト』(ようするにシンプルな初期の“ブロックくずし”ゲーム)を始めてプレイしたひとも、すぐにその遊び方はわかったはずだ」という一文から始まる。それは、現実世界でボールがどのように跳ね返るかを、普通のひとは知っているからだ、というのがその理由だ。

では、もしそんな知識がなく、映像とコントロールパドルと得点情報だけを与えられたとしたら、ひとはどうするだろうか? あるいは人工知能ならどうするだろうか?

それをやってのけるのが『DQN』だという。『DQN』とは“deep Q-network”というアルゴリズムの略だ。この『DQN』は、ブロックくずしだけでなく、横スクロールのシューティングゲームやボクシングゲーム、3Dのカーレースゲームなどを、与えられる映像と、可能な操作、そして得点の情報だけからプレイできるようになってしまうというのだ。この研究に関しては科学雑誌『ネイチャー』に発表されている。

『DQN』は、49個のゲームのうち43個で、『DQN』以前の機械用学習メソッドを上まわる結果を出した。それどころか、半数以上のゲームにおいて、人間のプロフェッショナル・プレーヤーの得点の75%以上の得点を獲得した。

なかには、驚くほど高度な作戦を立ててハイスコアを出したゲームもある。たとえばブロックくずしにおいては、最初にブロックの端に穴を開けて、ボールをブロックの奥に放り込んでブロックの裏側を崩すということをやるようになったのだ。

 

記憶を再生して復習する

筆者はコンピューター・プログラムに詳しくはないので、わかりやすい表現ができず、直訳になってしまうのだが、この『DQN』は、“Deep Newral Network”(深い神経系のネットワーク)と、規模を拡大させることができる様式の“Reinforcement Learning”(強化学習)を連携させることができる、いくつもの機能を活用して成り立っているという。

“Reinforcement Learning”というのは、特定の状況下で将来獲得する報酬(ゲームの場合は得点のこと)を最大限にするために、なにをなすべきかを決定する機械用の学習体系だ。

そして、それらのなかでもっとも重要なのは、神経生理学にヒントを得た“Experience Replay”(経験の再生)というメカニズムだ。人間の脳においては、睡眠中に海馬が最近の経験を思い出して認識を深めるという活動が起こっているそうだが、これと同様に『DQN』の学習段階においても、過去に起こったことの記憶を引っ張り出してきてトレーニングするというものだ。

この“Experience Replay”の機能を停止すると、『DQN』のパフォーマンスは著しく悪化するという。つまり、この機能が『DQN』の成果にとって非常に重要だということだ。

この手の技術は、将来さまざまな分野で役に立つことが期待される。たとえば、スマートフォンのGoogleアプリに複雑な作業を命令しても、それを成し遂げられるようになっていくだろう。

また、このブログの著者は、「私たちはこの学習アルゴリズムが、気象学や物理学、薬学、ゲノム科学など、より大きいスケールの複雑なデータを扱う研究者にも新しい理解のヒントを与えられることを望んでいます」と書いている。

 

近年のロボット工学や人工知能の進歩はめざましいが、それらの記事を読むたびに感じられるのが、“まずは人間、あるいは他の生物を知ることからスタートしている”という点だ。このGoogleのブログの最後にも触れられているが、ロボットや人工知能の進化は、それと同時に“人間や生物への理解がいっそう深まる”という点にも、同じくらいの価値があるように思う。

これだけ硬い内容を書いてきてなんだが、文章中に“DQN”という文字が出てくるたびに、やっぱり「くすっ」と笑ってしまう。いつか人工知能にもこの面白さが理解できるときが来るのだろうか。

 

【関連記事】

※ PCを徹底的に小型化したらマウスの中に入っちゃった!

※ GoogleマップにVR体験ができるイースターエッグがあった!

※ プリウスPHV開発責任者に聞いた「なぜPHVに注力するのか」

※ アップルが環境リーダーに!再生可能エネルギーによるデータセンターを建設

※ 人口衛星の打ち上げが大変なので気球から発射してみた

【参考・画像】

※ From Pixels to Actions: Human-level control through Deep Reinforcement Learning – Google Resertch Blog