サイトアイコン ひとり構造改革

PhotoMakerとは?AIが人物の特徴を保持して画像生成

hotoMakerは、AIを駆使した革新的な画像生成ツールです。人物の特徴を忠実に保持しつつ、テキスト指示に基づいたリアルな画像を生成する能力を持ちます。

このツールは、個人の特定の特徴を維持しながらも、異なる背景やスタイルに合わせて画像をカスタマイズすることが可能で、写真編集とAI技術の融合による新たな可能性を提示しています。

PhotoMakerとは?

PhotoMakerは、テキスト指示に応じてリアルな人物写真を生成する先進的な技術です。特定の人物の特徴を維持しつつ、高速かつ柔軟に画像を生成することが可能。複数の人物画像から特徴を統合し、個々の特性を反映させることができます。

PhotoMakerの特徴

リアリスティックな画像生成

テキストプロンプトに基づいてリアルな人物写真を生成する機能。

スタイリゼーション生成

基本モデルを変更し、LoRAモジュールを追加することで、スタイル化された画像生成を実現。

PhotoMakerの開発運営は?

PhotoMakerの開発運営はTencentARCが行っています。TencentARCはアリババグループに属する応用研究センターで、AI技術の開発と応用に力を入れています。特に実世界の顔の復元に使える実用的な技術「GFPGAN」というアルゴリズムに注力しています。

PhotoMaker技術の説明

出力プロセス

  1. 入力画像の変換
  2. テキストと画像の埋め込みの取得
  3. 融合された埋め込みの抽出
  4. スタックされたID埋め込みの形成
  5. 拡散モデルへの入力

入力画像の変換

同一人物の複数の画像を取り込み、これらを「スタックされたID埋め込み」として統合します。この埋め込みは、生成されるべき身元(ID)の統一された表現と見なされます。

テキストと画像の埋め込みの取得

テキストエンコーダと画像エンコーダからテキスト埋め込みと画像埋め込みをそれぞれ取得します。

融合された埋め込みの抽出

対応するクラス埋め込み(例えば、「男性」や「女性」)と各画像埋め込みを結合し、融合された埋め込みを抽出します。

スタックされたID埋め込みの形成

すべての融合された埋め込みを長さの次元に沿って結合し、スタックされたID埋め込みを形成します。

拡散モデルへの入力

スタックされたID埋め込みを拡散モデルのすべてのクロスアテンション層に供給し、IDコンテンツを適応的に統合します。

トレーニングと推論

トレーニング

同一IDの画像を使用し、背景をマスク処理します。

推論時

異なるIDの画像を背景歪みなしで直接入力し、新しいIDを生成することが可能です。

この方法は、特定のIDの特徴を維持しながら、異なる文脈でカスタマイズされたIDを合成することを可能にします。

PhotoMakerの始め方

ローカルで動かす方はライブラリをインストールして下さい。

Python環境の設定

Pythonバージョンは3.8以上が推奨。

PyTorchバージョンは2.0.0以上。

必要なライブラリはrequirements.txtからインストール。

モデルインストール

モデルのダウンロード

Hugging Faceのリポジトリからphotomaker-v1.binファイルをダウンロード。

Gradioデモの開始

gradio_demo/app.pyを実行することでローカルでGradioデモを開始。

PhotoMakerの生成のコツ

目的コツの内容
より高いID忠実度の確保カスタマイズされる人物の複数の写真をアップロード→IDの特徴をより正確に反映。
スタイル化された画像の生成スタイルの強さを調整し、他の基本モデルやLoRAを試す→異なるスタイル効果を実現。
生成スピードの向上生成画像数やサンプリングステップを減少させる→速度向上。ただし、ID忠実度が低下する可能性も。

まとめ

PhotoMakerを通じて、AI画像生成の新たな地平が開かれます。個々の特徴を保ちながら、想像を超える画像を創出するこのツールは、写真編集の未来です。PhotoMakerで、あなたのクリエイティビティを最大限に引き出し、さらなるビジネスチャンスを勝ち取りましょう。

モバイルバージョンを終了