Een risico bij de ontwikkeling en het gebruik van AI is het manipuleren van AI systemen, de uitkomsten en antwoorden. Er kan sprake zijn van "direct promp injections", met kwaadaardige instructies in de vraagstelling (de prompt), of "indirect prompt injections", het verbergen van kwaadwaardige instructies in externe databronnen waar AI gebruik van maakt, zoals emails en documenten.
Google werkt aan allerlei verdedigingsstrategieën om dit soort aanvallen en beïnvloeding van Gemini, het AI systeem van Google, te voorkomen., zoals dreigingsanalyses, red-teaming (ethische hackers die het systeem testen door het aan te vallen en hierover rapporteren), adversarial training, dat is training in een 'vijandige omgeving', door het AI-systeem bewust te confronteren met 'vijandige', valse informatie om het te trainen dit te herkennen en correct te reageren. Dit is te vergelijken met 'vaccinatie'.
In dit Google-blog geeft Google informatie de veiligiheidsmaatregelen voor Gemini AI.