GeminiやChatGPTなどの生成AIサービスは、単なる会話相手のチャットボットではなく、マルチモーダルなAIです。マルチモーダル(Multimodal)とは、テキスト、画像、動画、音声など様々な分野を扱えるような意味です。人で言うと、文章を書く能力、絵を描く能力、撮影する能力、スピーチ能力などの様々な能力に長けているというような意味になります。
このマルチモーダルなAIをうまく使うには、複数人で仕事をするのに適切な指示が必要になるように、AIにも適切な指示が必要になります。