ここから本文です

サムスン、静止画像から「人が話している動画」を生成する技術を開発

5/24(金) 10:13配信

CNET Japan

 モスクワにあるサムスンの人工知能(AI)センターの研究者らが、顔の静止画像から「人が話をしている動画」を生成できる新システムを開発した。

 この研究によると、このシステムは、ターゲットとなる顔から抽出したランドマーク(顔の輪郭や目、眉、口などを単純な線で表したもの)をソースとなる顔(たとえば静止画像)に当てはめ、ターゲットとなる顔の動きに合わせてソースとなる顔の表情が動く、実物そっくりな会話中の顔を作る。

 サムスンは次のように述べている。「こうした機能には、ビデオ会議やマルチプレーヤーゲームなどのテレプレゼンスのほか、特殊効果業界向けの実用的な用途がある」

 「ディープフェイク」技術の存在は目新しいものではないが、サムスンの新システムは3Dモデリングを使用せず、顔のモデルを作るのに1枚の写真しか必要としない。システムがモデルを作成するのに32枚の画像を使用できれば、「完全なリアリズムとパーソナライズを実現」できる、とサムスンは述べている。

 サムスンによると、限られた量の写真から「ディープフェイク」動画を作成できるのは、システムに会話中の顔の動画を集めた大規模なデータバンクがあり、外見の異なるさまざまな話し手に対応できるからだという。ソースとなる顔のランドマークとともにこのデータバンクを利用することで、新システムはリアルな外見のさまざまな顔モデルを生成できる。

 その後、このシステムは、さまざまな顔モデルを互いに比較してどのモデルが最も「リアル」かを判断する敵対的生成ネットワーク(GAN)を利用する。生成された各モデルを絞り込んで、動画に使用する最終的なモデルを選択できる。

 「ディープフェイク」動画は現在、米国の議員らにとって大きな懸念材料となっている。AIに操られて実際には言っていないことを言う人の動画が、国家安全保障上の脅威になりうると心配しているのだ。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

最終更新:5/24(金) 16:05
CNET Japan

こんな記事も読まれています

あなたにおすすめの記事