Geminiとは？Googleが本気で作ったマルチモーダルAIの始め方/使い方

大久保米造

2年前

Google AI「Gemini」についての情報をお探しですか？本記事では、Geminiの始め方や使い方をわかりやすく解説します。画像解析から言語学習、創造的なアイデア生成まで、Geminiが可能にする多彩な機能を紹介し、皆様の日常やビジネスにインサイトをご提供いたします。

AIの新時代への第一歩を、Geminiとともに踏み出しましょう。読者の皆さんがGeminiの可能性を最大限に活用できるよう、具体的なガイドを提供します。さあ、AIの未来を一緒に探求しましょう！

「Geminiで、未来の可能性を今、手の中に。」

Geminiとは？

GeminiはGoogleが開発したマルチモーダルAIです。人間の専門家の成績を上回った最初のAIモデルです。AIの能力が特定の分野で人間の専門家と同等、またはそれを上回るレベルに達しています。

参照：Gemini Intro

マルチモーダルAIとは？

マルチモーダルAIは異なる種類の情報をまとめて扱うAIを指します。GeminiはマルチモーダルAIであり、テキスト、コード、オーディオ、画像、ビデオなどの異なるタイプの情報を理解し、操作し、組み合わせることができます。

なぜ専門家（人間）より上？

MMLU（Multi-task Language Understanding）という難しいテストで人間の専門家よりも優れた成績を収めたことが大きな理由です。

MMLUテストはAIモデルの知識と問題解決能力を試すための一般的な方法です。57科目にわたる質問に答えることで、モデルの理解力が評価されます。

性能比較

Gemini Ultra: 90.0%

人間の専門家: 89.8%

GPT-4: 86.4%

シンギュラリティが起こった？

特定の課題解決という点では人間を超え、シンギュラリティを起こしたといえます。しかし、制御不能の状態でGemini自ら何かを起こすということはないようです。現時点ではGeminiがシンギュラリティを起こしたとはいえません。

Geminiは無料？

GeminiのバージョンはUltra、Pro、Nanoが用意されています。それぞれの利用価格については公表されていません。Google、Pixelユーザーであれば無料で使えるようです。Chrome、もしくはBardなどに組み込まれます。

GeminiとChatGPTとの違いは？

ベンチマーク	説明	Gemini Ultra	GPT-4
MMLU	57科目の質問の理解能力を評価	90.00%	86.4%
Big-Bench Hard	多段階推論が必要な課題	83.60%	83.1%
DROP	読解理解の能力	82.4	80.9
HellaSwag	日常タスクの常識的推論	87.80%	95.3%
GSM8K	基本的な算数操作	94.40%	92.0%
MATH	難しい数学問題	53.20%	52.9%
HumanEval	Pythonコード生成	74.40%	67.0%
Natural2Code	Pythonコード生成（新しいデータセット）	74.90%	73.9%

上記表は各AIモデルの能力を評価するために使用される基本テスト比較です。これには一般知識、推論、数学、コーディングなどが含まれます。ほぼ全ての項目でGPTを上回ったことをしめしています。

ベンチマーク	説明	Gemini	GPT-4V
MMMU	多分野の大学レベルの推論問題	59.40%	56.8%
VQAv2	自然画像の理解	77.80%	77.2%
TextVQA	自然画像のOCR	82.30%	78.0%
DocVQA	文書理解	90.90%	88.4%
Infographic VQA	インフォグラフィックの理解	80.30%	75.1%
MathVista	視覚文脈における数学的推論	53.00%	49.9%
VATEX	英語ビデオキャプション（CIDEr）	62.7	56
Perception Test MCQA	ビデオ質問回答	54.70%	46.30%
CoVoST 2	自動音声翻訳（21言語、BLEUスコア）	40.1	29.1
FLEURS	自動音声認識（62言語、WER、低い方が良い）	7.60%	17.60%

マルチモーダルAIとしてGPTとの比較です。

こちらもGeminiの高いパフォーマンスがうかがえます。

Geminiのバージョンを解説

Gemini Ultra
Gemini Pro
Gemini Nano

Gemini Ultra

最も大規模で高性能なバージョンです。2024年初めに一部のパートナー向けに公開予定となります。「Bard Advanced」と組み合わせて使用され、最先端のチャットAIサービスを提供します。

Gemini Pro

最も広く使われるバージョンです。検索サービスや広告、Chrome、Duet AIなどに組み込まれます。まずはBardに組み込まれ、英語での利用が開始され、多言語対応・マルチモーダル機能が拡大される予定です。12月13日に開発者向けイベントでAPIなどが公開されます。

Gemini Nano

スマートフォン内での使用を想定した小型の「オンデバイスAI」モデルです。特にPixelシリーズでの使用に最適化されており、音声文字起こしや要約機能などに活用できます。Pixex需要が高まるかもしれません。Pixel 8 Proで最初に搭載され、他のPixelや他社のスマートフォン向けプロセッサーへの対応も検討されています。

Nanoは12月6日から、Googleスマホ「Pixel 8 Pro」で利用可能です。

Geminiの始め方

3つのバージョンごとに始め方が異なります。

Gemini Ultraの始め方

Gemini Ultraは、2024年初めから一部のパートナーに限定公開されます。Googleのパートナープログラムに参加するか、直接Googleに連絡してアクセス許可を得ます。

パートナーとしてアクセスが許可されたら、Gemini Ultraを既存のシステムやアプリケーションに統合します。特に、Bard Advancedなどの高度なチャットAIサービスとの組み合わせでの使用が想定されています。

特定の用途や業務に合わせて、Gemini Ultraの機能をカスタマイズします。必要に応じて、Googleのサポートチームから技術的な支援を受けることができます。

Gemini Proの始め方

Gemini ProはGoogleの様々な製品（検索サービス、広告、Chrome、Duet AIなど）に統合されます。これらのサービスを利用しているユーザーは、自動的にGemini Proの機能を活用できます。主にBardへの組み込みとAPI利用が想定されます。

Bardへの組み込み

2023年12月、最初にBardに組み込まれ、英語での利用が開始されます。後に多言語対応やマルチモーダル機能が拡大される予定です。

日本からGemini Proを使う方法

1.Googleアカウント管理へのアクセス

Chromeブラウザを開きます。
右上のアイコンをクリックして、「Googleアカウントを管理」を選択します。
2.「個人情報」へのナビゲーション

Googleアカウントの管理画面で左メニューにある「個人情報」をクリックします。
3.言語設定の変更

「個人情報」画面をスクロールして、「言語」のオプションを見つけます。
ここで、現在の言語設定を確認し、必要に応じて編集します。
4.言語の追加と選択

言語設定で「編集」アイコンをクリックし、リストから「English」を選び、「United States」をオプションとして選択します。

言語設定を英語に切り替えると、Chromeの表示が英語になります。
この状態でBardにアクセスすると、英語版Bardが表示されます。

開発者向けAPI

2024年には開発者向けのイベントでGemini Proを使うためのAPIが公開されます。開発者はこれらのAPIを使用して、独自のアプリケーションやサービスにGemini Proを組み込むことができます。

Gemini Nanoの始め方

Gemini Nanoは、特にスマートフォンでの使用に最適化されたオンデバイスAIモデルです。

初めての搭載はPixel 8 Proで行われます。

音声文字起こしや要約機能など、Gemini Nanoを活用した新しい機能が提供されます。これらの機能はPixel 8 Pro限定でアップデートされ、後に他のデバイスへ拡大される予定です。

スマートフォンのOSやアプリのアップデートを通じて、Gemini Nanoの機能を利用します。ユーザーは設定でこれらの機能をカスタマイズすることが可能です。

なぜPixel 8 Pro限定？

Gemini Nanoの導入がPixel 8 Proに限定されている理由は、このAIモデルがGoogleのプロセッサー「Tensor G3」に特化して設計されているためです。Pixel 8 Proはこのプロセッサを搭載し、高いメモリ容量を持つため、Gemini Nanoの機能をフルに活用できます。一方、メモリ容量が少ないPixel 8はサポート外となっています。