サイトアイコン ひとり構造改革

Lumiereとは?Googleが開発するAI動画生成/編集プラットフォーム

生成動画AIを使った際に気になるのが被写体の一貫性です。まったく異なる顔に変化することもしばしあります。

そんな課題を解決するのが「Lumiere」です。Lumiereは一度の処理で全期間を生成することから被写体に一貫性を与えます。

本記事ではLumiereの概要や技術的特徴、便利な機能について分かりやすく解説します。本サイトでは毎日ビジネスにお役に立てるAI情報を配信しております。ぜひ、ブックマークをしてお見逃し無いようにお願いいたします。

Lumiereとは?

Lumiereは、T2V(Text-to-Video)、I2V(Image-to-Video)機能をもった生成AIプラットフォームです。リアルで多様かつ一貫した動きを描写する動画を生成できます。

Lumiereの何が新しい?

特徴Lumiere従来の技術
動画生成の方法一回の処理で全期間を生成最初と最後の画像を作り、間を埋める
動きの自然さより自然(一度に全て生成)不自然(途中の画像が不完全)
画質と速さ低画質だがスムーズな動画画質と速さはばらばら
学習の仕方空間と時間を考慮して学習主に空間のみを重視
機能幅広い(様々な編集や変換が可能)限られた用途

Lumiereは、ビデオの全期間を一回の処理で生成する新しい方法を採用しています。動画全体で自然な動きを実現しやすくなっています。

一方、従来の技術では最初と最後の画像を作り、その間を埋める方法を取ることが多く、結果として動画の動きが不自然になることがありました。

また、Lumiereは空間と時間の両方を考慮して学習するため、動画編集や変換などさまざまな用途に対応できる柔軟性があります。

Lumiereの技術的特徴

Lumiereは、リアルで多様な動きを持つビデオを合成するためのテキストからビデオへの拡散モデルです。この技術はビデオ合成における重要な課題に対応しています。以下に、技術的な仕組みを簡単に説明します。

Space-Time U-Netアーキテクチャ

Lumiereは「Space-Time U-Net」という特別な構造を使用します。このアーキテクチャは、ビデオの全期間を一度に生成することができます。つまり、ビデオの最初から最後までを一つのモデルパスで一括して処理するのです。

時間的一貫性の向上

従来のビデオモデルは、離れたキーフレーム(ビデオの重要なフレーム)を先に生成し、その後で詳細を埋めていく方法を取りますが、これには時間的な一貫性を保つのが難しいという問題がありました。Lumiereでは、ビデオ全体を一度に生成することで、この問題を解決しています。

空間的・時間的サンプリング

Lumiereは空間的な解析だけでなく、時間的なダウンサンプリング(解像度を下げる)とアップサンプリング(解像度を上げる)を行います。これにより、ビデオの各フレームを、異なる空間的・時間的スケールで効果的に処理することができます。

テキストから画像への拡散モデルの活用

Lumiereは、事前にトレーニングされたテキストから画像への拡散モデルを活用しています。これにより、モデルは直接、フルフレームレートで低解像度のビデオを生成する方法を学びます。

応用範囲の広さ

Lumiereは、画像からビデオへの変換、ビデオの修正や編集(インペインティング)、スタイリッシュなビデオ生成など、さまざまなコンテンツ作成やビデオ編集アプリケーションに適用できます。

Lumiereの開発チーム

名前所属・役割専門分野
Omer Bar-TalWeizmann科学研究所の大学院生コンピュータビジョン、ディープラーニング
Hila Cheferテルアビブ大学の博士課程の学生、
Googleで研究
ディープラーニング、コンピュータビジョン
自然言語処理、説明可能なAI
Omer TovGoogleで研究コンピュータビジョン、ディープラーニング
Roni Paissテルアビブ大学の大学院生、
Googleで研究
(不明)
Shiran ZadaGoogle Researchの研究者ディープラーニング、コンピュータビジョン
Ariel EphratGoogle Researchで研究コンピュータビジョン、ディープラーニング
Junhwa HurGoogle Researchで研究コンピュータビジョン、ディープラーニング
Yuanzhen LiGoogle Researchで研究機械知能、機械感覚、計算写真アプリ開発
Tomer MichaeliTechnionの准教授コンピュータビジョン、機械学習

Lumiere開発チームにはコンピュータビジョンやディープラーニングの専門家で構成されています。また、彼らの多くはGoogleでの研究経験を持っています。

Lumiereの機能

Lumiereは多様なビデオコンテンツの生成や編集を可能にしています。テキストや画像から自然でリアルな動きを持つビデオを作成し、さらに特定のスタイルや要素でビデオをカスタマイズすることもできます。

Text-to-Video(T2V)

テキストのプロンプトからビデオを生成します。通常のT2V機能ですが、より複雑なプロンプトで一貫性を追求できます。

Image-to-Video(I2V)

画像とプロンプトからビデオを生成します。画像をアップロードして詳細なプロンプトで動かします。

Video Stylization

プロンプトを利用し、動画のスタイルを変化させます。AIによる動画編集機能です。

Cinemagraphs

特定のマスク部分をアニメーション化します。簡単なマスキングをマウス操作でし、プロンプトで動画編集指示をします。

Video Inpainting

動画の欠けた部分を拡張します。また、服装の変更やアクセサリーの追加など、特定の要素を変更して新しいビデオを作成可能です。

まとめ

LumiereはHeyGenやStable Video Diffusionの有力な競合となるのでしょうか。Googleの開発ということで、Bardなどへの統合もあるのでしょうか。これからのロードマップに期待が集まります。

以上、Lumiereの概要や技術的特徴、便利な機能について解説をいたしました。皆様のビジネスにお役に立てる情報となれば幸いです。当サイトでは、毎日ビジネスに役立つAI関連の情報を提供しています。この機会にブックマークをして、大切な情報を見逃さないようにしましょう。

モバイルバージョンを終了