EMOとは？AIが音声と画像から表情豊かな人物動画を自動生成

大久保米造

2年前

EMOは音声と画像から人物の表情豊かな動画を自動生成するAI技術です。現代のデジタルコンテンツ制作では、リアルな人物表現の需要が高まっていますが、これを手動で作成するには多大な時間と労力が必要です。EMOは、このプロセスを自動化し、より効率的かつ高品質なコンテンツ制作を可能にします。

本記事では、EMOの技術的詳細とその応用可能性を探ります。毎日更新されるビジネスAI関連の最新情報をお届けしている当サイトをブックマークし、情報を逃さないようにしましょう。

EMOの概要

EMOは、音声付きの表情豊かな肖像画動画を生成するための技術です。この技術は、2段階のプロセスで動作します。

生成動画は任意の長さに調整でき、キャラクターのアイデンティティもバッチリ維持できます。

EMOは2024年2月時点で開発段階にあります。アリババグループが開発に携わっているということで、グループ内サービスやツールに統合される可能性があります。

アリババグループです。開発チームの中には「RenderIH」という3Dインタラクティブハンドポーズ推定のための大規模合成データセットの開発に携わった人物も含まれます。

EMOは、アリババグループが開発したAI技術であり、将来的にはアリババグループが提供する様々なサービスやツールに統合される可能性があります。具体的には、以下のような分野での活用が考えられます。

2024年2月時点で、開発段階にあります。一般ユーザーがアリババグループのサービスやアプリ、ツールなどで使用することはできません。

「Taobao」や「Tmall」などのプラットフォームで、商品のプレゼンテーションやユーザー体験を向上させるために使用される可能性があります。商品説明に3Dアニメーションを利用することで、より魅力的なビジュアルコンテンツを提供できます。

「Youku」などの動画プラットフォームで、コンテンツ制作者がキャラクターの表情や動きをよりリアルに表現できるようになります。これにより、視聴者に対して没入感のある体験を提供することが可能です。

「Tmall Genie」などのスマートデバイスやアプリケーションに統合され、ユーザーインターフェースをより対話的で人間らしいものにすることができます。仮想アシスタントがユーザーの質問に対して表情豊かに反応することで、ユーザー体験が向上します。

参照：EMO

ユーザーが提供する単一の参照画像を基に、システムはその人物の3Dアニメーションポートレートを生成します。この画像は、生成されるアニメーションの質に直接影響を与えるため、高解像度でクリアなフロントビュー画像の使用が推奨されます。

ユーザーから提供されるオーディオは、生成されるビデオの表情や唇の動きと同期されます。このオーディオトラックは、感情の強度や話し方の速さなど、ビデオの動きに大きく影響を与えるため、クリアで一定の音量のオーディオが必要です。

拡散モデルは、入力された画像とオーディオから、表情豊かな3Dアニメーションを生成します。このプロセスでは、AIが顔の特徴とオーディオの特徴を分析し、自然な表情や頭の動きを創出します。このステップでは、AIのトレーニングデータの多様性と質が重要で、リアリズムと表現力の向上に寄与します。

最終的に、オーディオに同期した動的な3Dポートレートビデオが生成されます。このビデオは、実際の人物が話しているかのような自然な動きと表情を持ち、視聴者に新しい体験を提供します。出力されるビデオの品質は、入力された画像とオーディオの質、そしてAIモデルの精度に依存します。

MOの導入により、音声と画像から自然な動きと表情を持つ人物動画を簡単に生成できるようになります。この技術はコンテンツマーケティングにおけるUGCで脚光を浴びるかもしれません。

以上、EMOがいかにして表情豊かな動画生成の新たな可能性を開くかについてご紹介しました。皆様には、常に最新のビジネスAI情報を提供する当サイトをブックマークしていただき、価値あるインサイトをお見逃しないようにお願いいたします。