Google GeminiはチャットAIというサービスです。
ここで言うGoogle GeminiはGoogleがウエブやスマートフォンのアプリで提供しているGeminiに関して扱っています。
Gemini自体の基礎知識についてはGoogle Gemini Appの基本的な使い方 でも解説しています。
Google Geminiを使う前に知っておきたいこと では、AIを勘違いして使わないように、とりあえず知っておいた方がいいことを解説しています。
Geminiは日本語では「ジェミニ」と発音しますが、英語の発音は ˈdʒɛmɪnaɪ で「ジェミナイ」みたいな発音になります。
Gemini自体はふたご座から取ったようですが、ヒューマンデジタルツインなどのAI関連の新しい概念、NASAのジェミニ計画など複数の要素から選ばれたようです。
チャットAIとは、入力した内容に対して人間のように返答するAIサービス全般のことです。
Geminiの場合は、文字だけではなく、音声、画像で返答するような機能も持っています。
AIにもいろいろありますが、2010年台くらいによく使われていたAIとしては画像分析があります。このAIは画像を分析するだけで、例えば同じ人かの照合をAIが行いました。
それとは違い、テキスト、画像、音声などを自動的に作り出すAIを一般的に生成AIといいます。
英語ではGenerative AIと言います。
生成AIに指示する質問のようなことです。
例えば去年の天気を知りたい場合は「1年前の天気を教えてください」の用に質問しますが、これがプロンプトと呼ばれています。英語ではPromptで動詞の意味は、刺激、きっかけを与えるなどになります。
例えばAIによっては「1年前の天気を教えてください」と言われても、1年前の定義がはっきりしていない場合がありますし、天気と言われても何を答えていいかわからない場合があります。
これを明確にして生成AIがしっかり答えられるようにするのが、プロンプト・エンジニアリングと言われています。
ようするに、自分が得たい情報を明確にするためのプロンプトの書き方をしっかりするようなことです。
例えば「1年前の天気を教えてください」ではどのような回答になるかわかりません。
なく「2023年5月15日の東京の新宿の天気を教えてください。回答には最高・最低気温、湿度を含めてください」などと日付と場所、回答内容も明確にしています。
一般的に、1年前の天気を知りたいという事は、1年前と今の気温違いなどを知りたいから聞いているので、「2023年5月15日の東京の新宿の天気を教えてください。回答には最高・最低気温、湿度を含めてください。そのデータを過去10年分と比較してください」などと過去のデータの比較までさせるような指示を入力すると簡単に知りたい情報が得られます。
もちろん1回で回答を得れるようにすることが目的では無く、何回か分割してもいいですが、自分が入力した内容と思った物が違う場合は、入力内容を見直すことが重要になります。
一般ユーザー向けのGeminiとGoogle Workspaceでは機能が違います。
例えば、過去のチャットの削除機能すらありません。(2025年5月)
Google Workspaceではデータの管理機能があり、ユーザーが削除した内容も一定期間保存出来るようになっています。
Geminiのようなサービスでも同じようにデータの管理をするためには、内部で一定の開発が必要になるため、単純に削除機能を実装してしまうと問題が発生するからだと推定されます。
通常のサービス自体は利用できても、より深いサービスの提供まではかなり時間がかかる事もあります。
日本語で質問しているのに、しばらく会話をしていると英語で返してくるようなことがあります。
例えば次のように、日本語で返信している기사に別のязыкが混ざることがあります。
どの場合も、特に出来ることは無いです。返信で日本語で返信してなどと伝えてもそれ自体が通じないこともあります。こういった内容はこのようなチャットAIサービスが始まった頃からある問題で、サービス提供側が本格的に対応しないと改善することはないです。
つまりユーザーレベルでは諦めて別のチャットを開始する、その文章を自分で翻訳するのが一番手っ取り早いです。
自分で対策しようとすること自体が時間の無駄になることもあります。
チャットAIはOpenAIのChatGPTが2022年11月に登場しました。その後、2023年頃からGoogleを含めて各社が急速に同様のサービス提供が始まり、各社の競争が本格的に始まりました。
ChatGPT含め、最近のチャットAIに使われているAI技術には、2017年の論文「Attention Is All You Need」内のTransformerという技術が使われています。この論文は主にGoogleの研究者によるものです。
Googleはその翌年の2018年に行われた開発者向けのGoogle I/OでGoogle Duplexという技術をデモしました。
AIが電話をかけて予約をするというデモでしたが、人と同じように会話をして予約するデモで、技術的には注目を集めましたが、同時にAI利用の倫理的側面も注目されるようになりました。
その後、Googleは倫理的な面でAIに関してはより慎重になっていったと考えられています。
GoogleはDuplexでTransformer以前のRNN技術(回帰型ニューラルネットワーク)を、さらにTransformerを使ったBERTのような理解モデルを開発していました。一方で、OpenAIは特にGPTシリーズのような生成能力に優れたTransformerモデルの大規模化を強力に推進していきました。Transformer技術は、その並列計算の特性から高性能なGPUリソースを大量に必要とします。
それに必要なハードウェアを提供したのがNVIDIAです。この前後にGPUの性能も急速に上がっていきました。
NVIDIAのCEOがTransformerについて自社のイベントで初めて言及したのが2020年です。GoogleはBERT、OpenAIはGPTでTransformer関連の開発をしていました。
なお、BERTはBidirectional Encoder Representations from Transformers、GPT はGenerative Pre-trained Transformersの略です。
NVIDIAは、Transformerのような大規模な演算に最適なGPUとして、2020年にNVIDIA A100を提供しました。これによって生成AIでは必須となる大量のパラメーターを使ったより大規模な学習が可能になり、AI技術の開発を後押ししました。
OpenAIはChatGPTで使われている技術の前身となる、GPT-1を2018年6月に、2019年2月にはGPT-2を、2020年5月にGPT-3を公開しました。GPUなどの技術の進化、Transformer技術自体の発展によってAI技術がこの時期に急速に進展しました。
GPT-3は一般に使えるチャットAIではありませんでしたが、プログラミング、文章生成能力が一定以上あると評価された物の、倫理的な問題なども指摘されていました。
その後、GPT-3を改良したGPT-3.5を使ったチャットAIサービスとして、ChatGPTを2022年11月に一般向けに提供が始まりました。
このChatGPTは、AI技術が急速に進化していることに一般ユーザーにも驚きを持って迎えられ、各社が本格的に対応せざるを得ない状況になりました。
GoogleのGeminiの前身となるチャットAIサービスの「Bard」はChatGPTに遅れ、2023年3月に提供が始まりました。
GoogleのBERTは理解モデルでした。Bardの当初の基盤となっていたのはTransformerで対話向けに開発されたLaMDAで、2023年5月にはより大規模で汎用的な性能を持つPaLM 2に置き換えられました。さらに、2024年2月に基盤としてマルチモーダル化したGeminiを採用し、チャットAIサービス自体もBardから「Gemini」に変更されました。
このように、GoogleのチャットAIサービスはChatGPTに追いつこうと1年程度かけて急速に開発し、ようやく本格的なサービスとなりました。
この間に他社のサービスも多数登場しており、この技術を使うのに必要になるGPU争奪戦、GPU自体もIntelやAMDが競合製品の開発を急いでおり、電力問題含め、AI関連各社の競争が激しくなっています。