Lumiereとは？Googleが開発するAI動画生成/編集プラットフォーム

大久保米造

2年前

生成動画AIを使った際に気になるのが被写体の一貫性です。まったく異なる顔に変化することもしばしあります。

そんな課題を解決するのが「Lumiere」です。Lumiereは一度の処理で全期間を生成することから被写体に一貫性を与えます。

本記事ではLumiereの概要や技術的特徴、便利な機能について分かりやすく解説します。本サイトでは毎日ビジネスにお役に立てるAI情報を配信しております。ぜひ、ブックマークをしてお見逃し無いようにお願いいたします。

Lumiereとは？

Lumiereは、T2V（Text-to-Video）、I2V（Image-to-Video）機能をもった生成AIプラットフォームです。リアルで多様かつ一貫した動きを描写する動画を生成できます。

Lumiereは、ビデオの全期間を一回の処理で生成する新しい方法を採用しています。動画全体で自然な動きを実現しやすくなっています。

一方、従来の技術では最初と最後の画像を作り、その間を埋める方法を取ることが多く、結果として動画の動きが不自然になることがありました。

また、Lumiereは空間と時間の両方を考慮して学習するため、動画編集や変換などさまざまな用途に対応できる柔軟性があります。

Lumiereは、リアルで多様な動きを持つビデオを合成するためのテキストからビデオへの拡散モデルです。この技術はビデオ合成における重要な課題に対応しています。以下に、技術的な仕組みを簡単に説明します。

Lumiereは「Space-Time U-Net」という特別な構造を使用します。このアーキテクチャは、ビデオの全期間を一度に生成することができます。つまり、ビデオの最初から最後までを一つのモデルパスで一括して処理するのです。

従来のビデオモデルは、離れたキーフレーム（ビデオの重要なフレーム）を先に生成し、その後で詳細を埋めていく方法を取りますが、これには時間的な一貫性を保つのが難しいという問題がありました。Lumiereでは、ビデオ全体を一度に生成することで、この問題を解決しています。

Lumiereは空間的な解析だけでなく、時間的なダウンサンプリング（解像度を下げる）とアップサンプリング（解像度を上げる）を行います。これにより、ビデオの各フレームを、異なる空間的・時間的スケールで効果的に処理することができます。

Lumiereは、事前にトレーニングされたテキストから画像への拡散モデルを活用しています。これにより、モデルは直接、フルフレームレートで低解像度のビデオを生成する方法を学びます。

Lumiereは、画像からビデオへの変換、ビデオの修正や編集（インペインティング）、スタイリッシュなビデオ生成など、さまざまなコンテンツ作成やビデオ編集アプリケーションに適用できます。

名前	所属・役割	専門分野
Omer Bar-Tal	Weizmann科学研究所の大学院生	コンピュータビジョン、ディープラーニング
Hila Chefer	テルアビブ大学の博士課程の学生、 Googleで研究	ディープラーニング、コンピュータビジョン自然言語処理、説明可能なAI
Omer Tov	Googleで研究	コンピュータビジョン、ディープラーニング
Roni Paiss	テルアビブ大学の大学院生、 Googleで研究	（不明）
Shiran Zada	Google Researchの研究者	ディープラーニング、コンピュータビジョン
Ariel Ephrat	Google Researchで研究	コンピュータビジョン、ディープラーニング
Junhwa Hur	Google Researchで研究	コンピュータビジョン、ディープラーニング
Yuanzhen Li	Google Researchで研究	機械知能、機械感覚、計算写真アプリ開発
Tomer Michaeli	Technionの准教授	コンピュータビジョン、機械学習