生成動画AIを使った際に気になるのが被写体の一貫性です。まったく異なる顔に変化することもしばしあります。
そんな課題を解決するのが「Lumiere」です。Lumiereは一度の処理で全期間を生成することから被写体に一貫性を与えます。
本記事ではLumiereの概要や技術的特徴、便利な機能について分かりやすく解説します。本サイトでは毎日ビジネスにお役に立てるAI情報を配信しております。ぜひ、ブックマークをしてお見逃し無いようにお願いいたします。
Lumiereとは?
Lumiereは、T2V(Text-to-Video)、I2V(Image-to-Video)機能をもった生成AIプラットフォームです。リアルで多様かつ一貫した動きを描写する動画を生成できます。
Lumiereの何が新しい?
特徴 | Lumiere | 従来の技術 |
動画生成の方法 | 一回の処理で全期間を生成 | 最初と最後の画像を作り、間を埋める |
動きの自然さ | より自然(一度に全て生成) | 不自然(途中の画像が不完全) |
画質と速さ | 低画質だがスムーズな動画 | 画質と速さはばらばら |
学習の仕方 | 空間と時間を考慮して学習 | 主に空間のみを重視 |
機能 | 幅広い(様々な編集や変換が可能) | 限られた用途 |
Lumiereは、ビデオの全期間を一回の処理で生成する新しい方法を採用しています。動画全体で自然な動きを実現しやすくなっています。
一方、従来の技術では最初と最後の画像を作り、その間を埋める方法を取ることが多く、結果として動画の動きが不自然になることがありました。
また、Lumiereは空間と時間の両方を考慮して学習するため、動画編集や変換などさまざまな用途に対応できる柔軟性があります。
Lumiereの技術的特徴
Lumiereは、リアルで多様な動きを持つビデオを合成するためのテキストからビデオへの拡散モデルです。この技術はビデオ合成における重要な課題に対応しています。以下に、技術的な仕組みを簡単に説明します。
Space-Time U-Netアーキテクチャ
Lumiereは「Space-Time U-Net」という特別な構造を使用します。このアーキテクチャは、ビデオの全期間を一度に生成することができます。つまり、ビデオの最初から最後までを一つのモデルパスで一括して処理するのです。
時間的一貫性の向上
従来のビデオモデルは、離れたキーフレーム(ビデオの重要なフレーム)を先に生成し、その後で詳細を埋めていく方法を取りますが、これには時間的な一貫性を保つのが難しいという問題がありました。Lumiereでは、ビデオ全体を一度に生成することで、この問題を解決しています。
空間的・時間的サンプリング
Lumiereは空間的な解析だけでなく、時間的なダウンサンプリング(解像度を下げる)とアップサンプリング(解像度を上げる)を行います。これにより、ビデオの各フレームを、異なる空間的・時間的スケールで効果的に処理することができます。
テキストから画像への拡散モデルの活用
Lumiereは、事前にトレーニングされたテキストから画像への拡散モデルを活用しています。これにより、モデルは直接、フルフレームレートで低解像度のビデオを生成する方法を学びます。
応用範囲の広さ
Lumiereは、画像からビデオへの変換、ビデオの修正や編集(インペインティング)、スタイリッシュなビデオ生成など、さまざまなコンテンツ作成やビデオ編集アプリケーションに適用できます。
Lumiereの開発チーム
名前 | 所属・役割 | 専門分野 |
Omer Bar-Tal | Weizmann科学研究所の大学院生 | コンピュータビジョン、ディープラーニング |
Hila Chefer | テルアビブ大学の博士課程の学生、 Googleで研究 | ディープラーニング、コンピュータビジョン 自然言語処理、説明可能なAI |
Omer Tov | Googleで研究 | コンピュータビジョン、ディープラーニング |
Roni Paiss | テルアビブ大学の大学院生、 Googleで研究 | (不明) |
Shiran Zada | Google Researchの研究者 | ディープラーニング、コンピュータビジョン |
Ariel Ephrat | Google Researchで研究 | コンピュータビジョン、ディープラーニング |
Junhwa Hur | Google Researchで研究 | コンピュータビジョン、ディープラーニング |
Yuanzhen Li | Google Researchで研究 | 機械知能、機械感覚、計算写真アプリ開発 |
Tomer Michaeli | Technionの准教授 | コンピュータビジョン、機械学習 |
Lumiere開発チームにはコンピュータビジョンやディープラーニングの専門家で構成されています。また、彼らの多くはGoogleでの研究経験を持っています。
Lumiereの機能
Lumiereは多様なビデオコンテンツの生成や編集を可能にしています。テキストや画像から自然でリアルな動きを持つビデオを作成し、さらに特定のスタイルや要素でビデオをカスタマイズすることもできます。
Text-to-Video(T2V)
テキストのプロンプトからビデオを生成します。通常のT2V機能ですが、より複雑なプロンプトで一貫性を追求できます。
Image-to-Video(I2V)
画像とプロンプトからビデオを生成します。画像をアップロードして詳細なプロンプトで動かします。
Video Stylization
プロンプトを利用し、動画のスタイルを変化させます。AIによる動画編集機能です。
Cinemagraphs
特定のマスク部分をアニメーション化します。簡単なマスキングをマウス操作でし、プロンプトで動画編集指示をします。
Video Inpainting
動画の欠けた部分を拡張します。また、服装の変更やアクセサリーの追加など、特定の要素を変更して新しいビデオを作成可能です。
まとめ
LumiereはHeyGenやStable Video Diffusionの有力な競合となるのでしょうか。Googleの開発ということで、Bardなどへの統合もあるのでしょうか。これからのロードマップに期待が集まります。
以上、Lumiereの概要や技術的特徴、便利な機能について解説をいたしました。皆様のビジネスにお役に立てる情報となれば幸いです。当サイトでは、毎日ビジネスに役立つAI関連の情報を提供しています。この機会にブックマークをして、大切な情報を見逃さないようにしましょう。