ここから本文です

深層学習でリップシンク動画生成 SiriやAlexaにも対応する「Neural Voice Puppetry」

1/17(金) 9:50配信

ITmedia NEWS

 ミュンヘン工科大学と独Max Planck Institute for Informatics(MPII)の研究チームが2019年12月に発表した「Neural Voice Puppetry」は、任意の音声を入力を元に、その音声に合わせた写実的な顔のアニメーションを生成する深層学習を用いた手法だ。

(左)デジタルアシスタントの音声を任意の人に合成し話をさせている様子、(右)任意の音声を任意の人に合成し話をさせている様子

 この手法を用いると、指定する顔の口元を操り人形のように音声駆動でアイデンティティを保持しながら動かせる。また、テキストを変換した音声合成からも生成できるため、Siri、Alexa、Google Assistantなどのデジタルアシスタントの音声も顔アニメーションに変換可能だ。

 パイプラインは、2つの主要部分で構成される。

 音声入力からDeepSpeech RNNを用い、ブレンドシェイプで顔の3Dモデルを駆動する基礎係数を予測。

予測した基礎係数を基に、ターゲットの顔モデルをレンダリングするための最適化を行い出力する。

 指定する顔が動く2~3分の短いビデオがあれば訓練可能で、インターネット上の短いビデオも利用できるのが特徴。

 活用例として、遠隔会議で自分のキャラクターを表示してしゃべらせる、デジタルアシスタントの上半身をプロジェクター等で投影し動かす、動画制作で有名人に話をさせる――などが挙げられる。

※この記事は、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

ITmedia NEWS

最終更新:1/17(金) 9:50
ITmedia NEWS

こんな記事も読まれています

あなたにおすすめの記事

Yahoo! JAPAN 特設ページ