PhotoMakerとは？AIが人物の特徴を保持して画像生成

hotoMakerは、AIを駆使した革新的な画像生成ツールです。人物の特徴を忠実に保持しつつ、テキスト指示に基づいたリアルな画像を生成する能力を持ちます。

このツールは、個人の特定の特徴を維持しながらも、異なる背景やスタイルに合わせて画像をカスタマイズすることが可能で、写真編集とAI技術の融合による新たな可能性を提示しています。

PhotoMakerとは？

PhotoMakerは、テキスト指示に応じてリアルな人物写真を生成する先進的な技術です。特定の人物の特徴を維持しつつ、高速かつ柔軟に画像を生成することが可能。複数の人物画像から特徴を統合し、個々の特性を反映させることができます。

テキストプロンプトに基づいてリアルな人物写真を生成する機能。

基本モデルを変更し、LoRAモジュールを追加することで、スタイル化された画像生成を実現。

PhotoMakerの開発運営はTencentARCが行っています。TencentARCはアリババグループに属する応用研究センターで、AI技術の開発と応用に力を入れています。特に実世界の顔の復元に使える実用的な技術「GFPGAN」というアルゴリズムに注力しています。

同一人物の複数の画像を取り込み、これらを「スタックされたID埋め込み」として統合します。この埋め込みは、生成されるべき身元（ID）の統一された表現と見なされます。

テキストエンコーダと画像エンコーダからテキスト埋め込みと画像埋め込みをそれぞれ取得します。

対応するクラス埋め込み（例えば、「男性」や「女性」）と各画像埋め込みを結合し、融合された埋め込みを抽出します。

すべての融合された埋め込みを長さの次元に沿って結合し、スタックされたID埋め込みを形成します。

スタックされたID埋め込みを拡散モデルのすべてのクロスアテンション層に供給し、IDコンテンツを適応的に統合します。

同一IDの画像を使用し、背景をマスク処理します。

異なるIDの画像を背景歪みなしで直接入力し、新しいIDを生成することが可能です。

この方法は、特定のIDの特徴を維持しながら、異なる文脈でカスタマイズされたIDを合成することを可能にします。

ローカルで動かす方はライブラリをインストールして下さい。

Pythonバージョンは3.8以上が推奨。

PyTorchバージョンは2.0.0以上。

必要なライブラリはrequirements.txtからインストール。

モデルのダウンロード

Hugging Faceのリポジトリからphotomaker-v1.binファイルをダウンロード。

gradio_demo/app.pyを実行することでローカルでGradioデモを開始。

目的	コツの内容
より高いID忠実度の確保	カスタマイズされる人物の複数の写真をアップロード→IDの特徴をより正確に反映。
スタイル化された画像の生成	スタイルの強さを調整し、他の基本モデルやLoRAを試す→異なるスタイル効果を実現。
生成スピードの向上	生成画像数やサンプリングステップを減少させる→速度向上。ただし、ID忠実度が低下する可能性も。