Meta社のAudio2Photorealとは？音声からリアルなアバターを作成

大久保米造

2年前

音声からリアルなアバターを生み出すことができるとしたら、どんなビジネスチャンスが広がるでしょうか？

メタ社の「Audio2Photoreal」は、まさにその技術を実現しました。この記事では、この革新的なテクノロジーの概要とその可能性を探ります。

音声が生み出す新たなリアリティを一緒に探究しましょう。

『音声から始まる、あなたのアバター物語。』

Audio2Photorealの紹介

2024年1月5日に、メタAIは革新的な技術「Audio2Photoreal」を発表しました。この先進的なプロジェクトは、オープンソースとして設計されており、音声入力に基づいてリアルな3Dアバターを生成することができます。

これらのアバターは、リアルな表情だけでなく、複数人の会話で話される言葉に対応する完全な身体とジェスチャーの動きも再現します。この画期的な技術の詳細について探ってみましょう。

製品の特徴

音声からリアルな人間のアバターを生成。
事前トレーニングされたモデルとデータセットを提供。
顔と身体のモデルを含む。
高品質なアバターレンダリングを実現。
オープンソースのPyTorchコード実装を提供。

Audio2Photorealの開発運営は？

Audio2Photorealの開発と運営は、メタリアリティラボズリサーチ（Meta Reality Labs Research）とカリフォルニア大学バークレー校（University of California, Berkeley）によって行われています。

このプロジェクトには、Evonne Ng、Javier Romero、Timur Bagautdinov、Shaojie Bai、Trevor Darrell、Angjoo Kanazawa、Alexander Richardという、両機関の研究者たちが関与しています。

メタリアリティラボズリサーチは、メタ（旧Facebook）の研究部門であり、革新的なバーチャルリアリティと拡張現実技術の開発に注力しています。

一方、カリフォルニア大学バークレー校は、先進的な研究と教育で知られる世界的に有名な大学です。これらの組織が協力することで、Audio2Photorealのような画期的な技術が開発されています。

Audio2Photorealの仕組み

データセットキャプチャ
モーションモデル構築
顔の動きの生成
身体動作の生成
仮想キャラクターのレンダリング
結果の表示

データセットキャプチャ

モデルは、リアルな再構築を容易にするため、2人の会話の豊富なデータセットをキャプチャします。

モーションモデル構築

データから、顔、姿勢、身体動作モデルを含む複合モーションモデルを構築します。

顔の動きの生成

同時に、モデルは音声をプリトレーニングされたリップリグレッサーを使って処理し、顔の動きの特徴を抽出します。条件付き拡散モデルがこれらの特徴に基づいて表情を生成します。

身体動作の生成

次に、音声入力を使用して、1秒あたりのベクトル量子化（VQ）ガイド付きの姿勢を自動回帰的に出力します。これらと音声は、30フレーム/秒の高頻度身体動作を生成するための拡散モデルに供給されます。

仮想キャラクターのレンダリング

生成された顔と身体の動きは、訓練された仮想キャラクターレンダラーに渡され、リアルなアバターが生成されます。

結果の表示

最終的な出力では、会話の微妙なニュアンスを表現するフルボディのリアルな仮想キャラクターが示されます。

使用シナリオの例

Audio2Photorealは、声のデータを収集してカスタムキャラクターアバターを生成するモデルのトレーニング、歴史上の人物の声のデータからリアルな仮想イメージを合成する、3Dゲームや仮想空間でのキャラクターボイスアクティングの適応など、さまざまなシナリオでの応用が可能です。

ビジネスシーン

仮想顧客サービス代理店
ビジネスプレゼンテーションの革新

仮想顧客サービス代理店

Audio2Photorealは、音声データを基にリアルなカスタマーサービス担当者のアバターを生成することで、オンラインカスタマーサポートをパーソナライズし、顧客のエンゲージメントを高めることができます。これにより、顧客はよりリアルで親しみやすい対話体験を得ることができます。

ビジネスプレゼンテーションの革新

伝統的なスライドショーに代わり、Audio2Photorealを用いてプレゼンテーターのリアルな3Dアバターを生成し、視聴者に対してインタラクティブなプレゼンテーションを行うことが可能です。この方法は、遠隔地からのプレゼンテーションでも、よりリアルなコミュニケーションとエンゲージメントを提供します。

日常シーン

家族の思い出の再現
パーソナライズされたストーリーテリング

家族の思い出の再現

Audio2Photorealを利用して、故人や遠方に住む家族の声からリアルなアバターを生成し、特別な日や記念日に彼らとの会話を再現することができます。この技術により、家族の絆を深める新しい方法が提供されます。

パーソナライズされたストーリーテリング

子供のために、彼らのお気に入りの物語を語る親や祖父母の音声から、カスタマイズされたアバターを生成し、物語の読み聞かせをより魅力的で親しみやすいものにします。これにより、物語の内容がよりリアルに感じられ、子供たちの想像力を刺激します。

教育シーン

言語学習の革新
歴史的人物の再現

言語学習の革新

Audio2Photorealを使用して、異なる言語のネイティブスピーカーのアバターを生成し、生徒たちにリアルな言語学習環境を提供します。これは、実際の対話体験を通じて、言語の習得を促進する効果的な方法です。

歴史的人物の再現

歴史的人物の音声データ（実際の録音や想定される声）を使用して、その人物のアバターを生成し、歴史の授業に活用します。生徒たちは、ただのテキストを超えた形で歴史を学ぶことができ、より深い理解と関心を持つことが可能です。

まとめ

この記事を通じて、Meta社のAudio2Photorealの驚くべき能力と、それがもたらす無限の可能性をご紹介しました。音声から生み出されるリアルなアバターは、ビジネスから日常生活、教育まで、私たちの世界をどのように変えていくでしょうか？テクノロジーが開く新しい扉を一緒に探求していきましょう。

「あなたの声、新たな世界を描くキャンバス。」