Google Geminiは、Google社が開発した最新の生成AIモデルです。2023年12月7日にGoogle社から発表され話題ですが「Google Geminiを利用したいのに、どんな機能が使えるのか理解していない」という企業担当者も多いのではないでしょうか。
生成AIモデルの種類は年々増えており、特にChatGPT(GPT-4)は代表的な生成AIモデルとして人気を集めています。Google GeminiとChatGPTはどのような点が違うのか、という点も気になっている方は多いでしょう。
そこで今回は、Google Gemini の特徴やできること、ChatGPTとの違いなどについて解説します。Google Geminiについて理解を深めたい方は、ぜひ最後までお読みください。
Google Geminiとは
Google Geminiは、Google社が開発した最新の生成AIモデルです。テキストや画像、音声、動画などを取りこみ、そこから新たなテキストや画像を生成できます。
Geminiには、Gemini Ultra、Gemini Pro、Gemini Nanoの3つの言語モデルが用意されています。
言語モデル |
Gemini Ultra |
Gemini Pro |
Gemini Nano |
概要 |
有料版(Gemini Advanced)の最上位モデル |
無料版に搭載されているモデル |
スマートフォンでの利用を想定したモデル |
特徴 |
・全モデルの中で最も性能が高い ・テキストや画像、音声、動画を織り交ぜて使える |
・Googleアカウントがあれば、無料で利用できる ・Ultraより性能は劣る |
・Pixel 8などのGoogle製のスマートフォンがあれば、無料で利用できる |
使用する用途に合わせて、モデルを選択するとよいでしょう。
Google GeminiとChatGPT(GPT-4)の比較
Google GeminiとChatGPTの性能面の違いをご紹介します。今回比較している「GPT-4」は、OpenAI社に開発された生成AIモデルです。2024年には、さらに機能を強化したGPT-4oも発表されています。
Google社は、Google Gemini UltraとGPT-4を比較した結果を以下のように示しています。
引用元:Google Japan Blog「最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに」
たとえば、最上部のMMLU(大規模マルチタスク言語理解)は、数学や法律など計57科目における知識と問題解決能力を測る指標です。本指標において、Google Gemini Ultraは90.0%のスコアを記録し、GPT-4の86.4%を上回る結果となっています。
また、ほかにも画像認識や数学的推論など計32項目のうち30項目でGemini UltraのパフォーマンスはGPT-4を上回っていることが示されています。Google GeminiとGPT-4の比較検証の詳細について知りたい方は、Gemini テクニカルレポートも併せてご確認ください。
Google GeminiとBardの違い
Google GeminiはBardと混同されるケースが多く見られます。BardはGoogleが最初に一般公開したAIチャットサービスですが、現在はGeminiと名称変更されました。Googleは、BardからGeminiへの名称変更に伴い、生成AIのサービスを強化しています。
この名称変更は、近年OpenAIやMicrosoftなどが生成AIのサービスを強化しているのに対抗する狙いがあるからといわれています。
参照:Google Japan Blog「BardからGeminiへ:Ultra 1.0とGeminiアプリを発表」
Google GeminiとSGEの違い
Google Geminiは、SGEとも混同されがちです。SGE(Google Search Generative Experience)は、Googleが試験運用している検索機能のことを指します。Google検索の結果に対し、AIによる回答が表示されるのが特徴です。次世代の検索エンジンとして注目を集めています。
SGEは2023年5月にGoogle主催のカンファレンスで発表され、同年の8月に日本でも試験運用が始まりました。
参照:Google Japan Blog「生成 AI による検索体験 (SGE) のご紹介」
Google Geminiでできること
この章では、具体的なGoogle Geminiでできることを、Google公式のデモ動画を用いながら解説します。
- 動画の内容を認識できる
- 音声と画像を同時に認識できる
- 画像を認識して問題点を抽出できる
- 画像を認識してコード化できる
- 画像や記号を基に推測できる
- Googleサービスとの連携ができる
- 校正や要約、ファクトチェックができる
なお、Google公式のデモ動画は実演場面を切り出した静止画をまとめたものとなっているため、あくまで参考イメージとしてご確認ください。
動画の内容を認識できる
Google Geminiは、動画の内容を認識してテキストで回答することが可能です。たとえば、以下のように鳥の絵を紙に書いている動画をGoogle Geminiに見せると「It looks like a bird to me」(私には鳥のように見えます)と回答が返ってきます。
その後、紙の中央に波線を追加すると、「The bird is swimming in the water」(鳥が水の中を泳いでいます)と追加で回答されました。このようにGoogle Geminiは、動画内のコンテンツを捉えながら動画に合った内容をテキストで説明することが可能です。
音声と画像を同時に認識できる
Google Geminiは、音声と画像を同時に認識することもできます。たとえば、野菜が入ったボウルと卵の画像を貼り付け、音声で「この材料で野菜オムレツを作るときの最初の手順は何?」と質問しました。
その結果、Google Geminiから「ボウルに卵を割って溶きます」との音声回答が得られました。このことから、Google Geminiが音声と画像の両方を認識できることが分かるでしょう。
その後、質問者がオムレツを作り始め、「これで完成ですか?」と音声で質問しながらオムレツの調理画像を追加で貼り付けます。すると下のとおり、Google Geminiから「ほぼ完成のようです。ひっくり返して反対側も焼いてください」との音声回答が得られました。
画像を認識して問題点を抽出できる
Google Geminiでは、画像の中身を認識して画像内にある問題点を抽出することも可能です。
たとえば、数学などの問題において手書きの答案をアップロードすると、Google Geminiが内容を解析して答えの添削をしてくれます。
加えて、不正解となった回答がなぜ間違っていたのかについて、原因を特定して解説を行うことも可能です。以下では、問題を解くための公式は正しかったものの、高さの計算で間違いがあったことをGoogle Geminiが検出しています。
画像を認識してコード化できる
Google Geminiは、画像を認識してプログラミングコードに変換することも可能です。たとえばGoogle公式のデモでは、木の画像をコードに変換する作業を紹介しています。
このデモでは、Google Geminiにプロンプトを入力すると、以下のように木の画像を基にしたフラクタル構造の木の図形が作成されました。
そしてタブを「Preview」から「Code」に切り替えると、上記のフラクタル構造の木の図形を出力するためのJavaScriptのプログラミングコードが表示されました。
Google Geminiは、画像以外にもプログラミング言語のコードを生成できます。PythonやJavaScript、Java、Goなど、さまざまな言語をスムーズに生成できるのが魅力です。複数のプログラミング言語に対応しているため、幅広い開発環境で利用できます。
Pythonで生成したコードに関しては、Google Colabでそのまま実行できます。業務の効率化や自動化など、幅広い目的で利用できるでしょう。
画像や記号を基に推測を行える
Google Geminiを活用すれば、与えられた画像や記号を基に、作品名なども推測できます。たとえば、以下では朝食の画像と指輪の画像を並べて、Google Geminiに映画名の推測をさせています。その結果、2つの画像を認識して映画名の「ティファニーで朝食を」を回答することができました。
また、以下では月・上矢印マーク・城の3つの画像を並べて、Google Geminiに映画名の推測をさせています。その結果、3つを認識して「ムーンライズ・キングダム」の映画名を回答しました。
Googleサービスとの連携ができる
Geminiは、下記のようなGoogleサービスと連携ができることも強みです。
- Gmail
- Google Flights
- Google Maps
たとえばGoogle GeminiとGmailを連携すれば、メールの内容を解析して、返信メールを自動生成できます。重要なメールを要約して分かりやすくすることも可能なため、メール処理の時間を大幅に短縮できます。
Google GeminiとGmailの組み合わせは、一日に大量のメールを受信している方やメール業務を効率化したい方におすすめです。
ビジネスでGoogleサービスをよく使っている方は、Google Geminiを利用することで業務効率化につながるでしょう。
校正や要約、ファクトチェックができる
Geminiでは、議事録やメモ・音声データなどを校正・要約できます。加えて、ファクトチェックも可能です。Geminiのファクトチェックは、参考にしたWebページのURLを回答と一緒に提示する仕組みとなっています。
ほかのAIサービスの場合、著作権の観点から情報ソースを明示できないケースが多く見られます。情報ソースを明確に提示できる点は、Googleが開発した生成AIならではの強みといえます。提示してもらったURLからWebページに直接アクセスし、要約してもらうことも可能です。
Google Geminiの料金
Geminiは、個人利用からビジネス利用までさまざまなプランが用意されています。
2024年8月時点では、GeminiはGoogleアカウントがあれば無料で利用可能です。上位版にあたるGemini Advancedを利用する場合は、月額2,900円(税込)で利用できます。
プラン名 |
Gemini |
Gemini Advanced |
月額料金 |
無料 |
2,900円(税込) |
言語モデル |
Gemini Pro |
Gemini Ultra |
引用元:Google「Gemini Advanced」
Gemini Advancedでは、2TBのストレージ容量を追加で利用できます。そのため、Googleのオンラインストレージを普段から利用しているユーザーにとってはお得といえるでしょう。
Google Workspaceを契約している場合は、ビジネスプランも選択できます。ビジネスプランには、以下の4つが用意されています。
プラン名 |
Business Starter |
Business Standard |
Business Plus |
Enterprise |
月額料金 |
680円 |
1,360円 |
2,040円 |
要問い合わせ |
引用元:Google Workspace「柔軟な価格プラン オプションの比較」
開発者向けのGemini APIを利用したい方は、Google AI for Developersをご確認ください。
Google Geminiの使い方
実際にGoogle Geminiをどう使うのかを解説します。まずは、Google Geminiの公式サイトにアクセスし「Geminiと話そう」をクリックしてください。
クリックしたら利用規約とプライバシーに関する説明が表示されるので、下までスクロールしながら確認しましょう。一番下まで表示したら右下に「Geminiを使用」と表示されますので、クリックしてください。
Geminiの登録はこれで完了します。下記の画面が表示されますので、メール配信を希望したい場合はチェックを入れてください。最後に「続ける」をクリックします。
続いて、Geminiの使い方を簡潔に説明します。「ここにプロンプトを入力してください」という箇所に聞きたい質問を入力して、一番右の矢印マークをクリックするのが基本的な使い方です。Geminiはテキストだけでなく、画像や音声での質問にも対応しています。
矢印マークをクリックすると、即座に回答が返ってきます。
2024年5月に発表された最新モデル「Gemini 1.5 Pro」でできること
Geminiの最新モデルとなっているのが「Gemini 1.5 Pro」です(2024年8月時点)。1.5proは2024年5月に発表されたモデルであり、従来のモデルよりもさらにパワーアップしています。
Gemini 1.5 Proでは、100万トークン以上のテキストや1時間程度の動画コンテンツ、数万行以上のコードを扱えるようになりました。そのため、複雑なタスクや長い文章に対して迅速に対応できるようになっています。Gemini 1.5 Proでできることは、下記の通りです。
Gemini 1.5 Proでできること |
|
画像の解析 |
・料理の写真からレシピを導き出す ・数学の問題を撮影し、解き方を説明してもらう |
コンテンツ作成 |
・コンテンツの作成や改善 ・コンテンツに記載されている情報を要約する |
スライド作成 |
・新しいスライドを生成する ・プレゼンテーションの内容を要約する |
スプレッドシート |
・表の作成 ・データの整理 |
ドライブ |
・Googleドライブからファイルをアップロードして内容を分析する ・複数のドキュメントを要約する |
Gemini 1.5 Proは、日本語を含む35以上の言語に対応しています。
まとめ:Google Geminiでできることを活かして業務を効率化しよう
Google Geminiは、2023年12月7日にGoogle社が発表した最新の生成AIモデルです。Gemini Nano、Gemini Pro、Gemini Ultraの3つのモデルがあります。Google Geminiでは、音声と画像を同時に認識したり、画像を認識して問題点を抽出したりと、できることが豊富にあります。
また、画像を認識してプログラミングコードに変換することや、画像・記号を基に作品名などを推測することも可能です。
とくにGemini UltraはGPT-4を上回るパフォーマンスを示していることから、高性能な生成AIモデルとして今後も注目を集めていく可能性があるでしょう。
SEデザインでは、コンテンツマーケティング支援サービスを中心に、「AI導入コンサルティング」サービスも提供しております。「AIを活用して記事制作を内製したい」「業務効率化に生成AIを活用したい」などとお考えの際は、お気軽にご相談ください。