手話の自動翻訳のための画期的技術


Googleが手話の自動翻訳を可能にする画期的技術を公開した。

手話の自動翻訳に関しては、これまでにもさまざまな取り組みがなされてきたが、今のところあまり成果が出ていない。

というのも、コンピュータにとって手の形や動きを認識するというのは、かなり難しいタスクになるからだ。顔を認識するよりも難しいという。

顔であれば目や口の部分など、ある程度明暗のはっきりとしたパターンがあるが、手の場合はそれがないために、コンピュータにとって認識が難しいのだそうだ。

さらに、手の動きによっては一部が隠れて見えなくなる「オクルージョン」が発生すると、認識が一層難しくなる。たとえば握手をしたり握りこぶしを作ったりすると指が隠れてしまうような場合だ。

この問題は手話の自動翻訳を難しくするだけでなく、AR(拡張現実)で現実世界にデジタル情報を重ね合わせることも難しくする。

これを解決する画期的技術をGoogleが開発して公開した。Google AIチームは、8月19日、ハンドトラッキングの新しい手法を開発して、オープンソースフレームワークの「MediaPipe」に実装したと発表した。

このハンドトラッキングソリューションでは3つのモデルを組み合わせたML(機械学習)パイプラインを使用する。

まずは、手の位置を検出するために、「BlazePalm」と呼ばれる「手のひら検出モデル」を使用する。手を検出するのではなく、手のひらを検出するもの。手のひらは曲がりにくいので検出しやすい。指を含む手全体を検出するよりもずっと簡単なのだそうだ。これにより95.7%の精度で手のひらを検出できるとしている。

次に、手の目印を検出する「ハンドランドマークモデル」を使用する。片手につき各関節などに21個の目印を付けて、その3D座標を高精細で検出する。常に手の動作を学習しているので堅牢で、手の一部しか見えなくても握りこぶしなどで「セルフオクルージョン」が起こっても大丈夫だそうだ。

Google AIブログより

そして最後にその目印の動きを計算してジェスチャーとして認識する「ジェスチャー認識」技術を使用する。

これにより、スマホのカメラでもリアルタイムで手の動きをトラッキングすることができるので、さまざまな分野に応用することが可能だ。

今のところGoogleのアプリやサービスなどでこの技術を使用する予定はないので、この技術を使って何か研究や開発をしたい人はご自由にお使いくださいとして、ソースコードを公開している。

誰かがこれを使って手話の自動翻訳を完成してくれることを祈る。