In conseguenza al report delle scorse settimane secondo il quale bigG affiderebbe a realtà esterne il compito di ascoltare una parte delle registrazioni vocali col fine di migliorare la tecnologia, un’autorità tedesca ha avviato un’indagine in merito. Oggi il gruppo di Mountain View annuncia di aver optato la temporanea sospensione dell’iniziativa, almeno per quanto concerne il territorio europeo.
Siamo in contatto con l’autorità di Amburgo per la protezione dei dati e stiamo rivedendo il modo di condurre le revisioni degli audio per aiutare gli utenti a capire come vengono usate le informazioni. Queste revisioni rendono i sistemi di riconoscimento vocale più inclusivi dei diversi accenti e dialetti per ogni lingua. Non associamo le clip audio agli account degli utenti durante il processo di revisione che viene effettuato solo per circa lo 0,2% di tutte le registrazioni.
Lo stop non è definitivo, ma durerà tre mesi. Questo è ciò che oggi rende noto Google. Un tempo sufficiente per approfondire la questione e capire in che modo approcciare il problema. L’obiettivo è trovare il giusto equilibrio tra la necessità di perfezionare gli algoritmi e l’obbligo di garantire un adeguato livello di tutela della privacy agli utenti, evitando che informazioni sensibili possano finire per essere ascoltati da terzi, magari in seguito a un’attivazione involontaria dell’intelligenza artificiale.
Così come avviene con l’Assistente Google, anche le conversazioni tra l’utente e Siri non rimangono una questione del tutto privata: un’indagine condotta da Alex Hern del Guardian ha svelato nei giorni scorsi che alcune delle clip catturate dall’IA di Apple vengono ascoltate da terzi. Una pratica attuata dal gruppo di Cupertino con l’obiettivo di migliorare la qualità del servizio offerto, identificando quando le registrazioni vengono avviate per sbaglio.
Il programma in questione è stato battezzato internamente Grading (“Classificazione”) ed è portato avanti da aziende esterne che ricevono i file audio da analizzare, fornendo di ritorno un feedback utile per ottimizzare il comportamento degli algoritmi. Legittimi i dubbi insorti in fatto di privacy: anche se le conversazioni sono rese anonime, capita talvolta che includano informazioni riservate o che portino con sé momenti di vita privata e intima, soprattutto se il microfono viene attivato per sbaglio pronunciando qualcosa di simile a “Hey Siri”.
Oggi la società di Tim Cook fa sapere di aver deciso per l’immediata interruzione del programma, in tutto il mondo. Questo il breve comunicato affidato dalla mela morsicata alla redazione del sito TechCrunch.
Siamo impegnati per offrire una grande esperienza con Siri, proteggendo la privacy degli utenti. Mentre continuiamo a condurre una revisione approfondita, sospendiamo Siri Grading a livello globale. In aggiunta, come parte di un futuro aggiornamento software, gli utenti avranno modo di scegliere se partecipare a Grading.
Come scritto, più avanti verrà dunque distribuito un aggiornamento software che consentirà all’utente di scegliere se partecipare all’iniziativa o meno: basterà agire su una singola impostazione per evitare che le proprie interazioni con Siri, volontarie o meno, possano essere ascoltate da terzi.
Matthew Panzarino di TechCrunch, firma dell’articolo che oggi rende nota la novità, ha spulciato tutti i termini di servizio accettati quando si sceglie di affidarsi all’assistente virtuale di Cupertino, senza trovare alcun riferimento diretto alla pratica, ma solo in generale a non meglio precisate analisi messe in campo al fine di migliorare continuamente la tecnologia.
Secondo un’indagine di The Guardian, le registrazioni dei dialoghi con Siri non rimangono una questione privata tra l’utente e l’assistente intelligente di Apple, ma alcune vengono anche ascoltate da persone terze. Secondo quanto emerso, e sulla base delle parziali conferme provenienti da Cupertino, una parte di queste conversazioni viene utilizzata da contractor esterni i quali hanno il compito di operare con intelligenza umana per consentire ai sistemi interni di machine learning di migliorare l’intelligenza artificiale dell’assistente.
Siri come Alexa, insomma, ed Apple come Amazon: il parallelismo tra le due situazioni è tutto fuorché casuale, consentendo di capire come funziona l’intero sistema degli assistenti intelligenti. Laddove gli algoritmi stanno cercando di affinare le proprie performance, infatti, c’è bisogno di una forza lavoro umana in grado di “insegnare” e catalogare il significato di talune conversazioni ove l’intenzione e il messaggio sono meno espliciti. Per questo motivo tanto Amazon quanto Apple si affidano a lavoratori esterni all’azienda, i quali si trovano a dover ascoltare e interpretare piccoli spezzoni audio che, in seguito, vanno a catalogare su apposito CRM per consentirne l’utilizzo ai fini del miglioramento dell’assistente.
Come già successo con Amazon, però, anche nel caso Apple la cosa appare ben poco trasparente: a seguito dell’inchiesta (redatta grazie a notizie trapelate da persone direttamente impegnate in questo compito di ascolto e catalogazione, Cupertino ha ammesso gli addebiti pur sgonfiando di molto la portata delle accuse: solo l’1% delle conversazioni verrebbe vagliato da un interprete umano e si tratta perlopiù di brevissime registrazioni nelle quali non è chiaro se l’attivazione sia stata o meno volontaria. La gola profonda che ha dato origine all’inchiesta, però, la pensa diversamente: spesso le informazioni carpite hanno forti connotati personali, entrando quindi a contatto con informazioni sensibili.
Discussioni tra dottori e pazienti, accordi aziendali, dialoghi su contenuti di matrice criminale: questo e altro tra le registrazioni rivelate, il tutto accompagnato da dati personali legati a luoghi, persone e altre informazioni sensibili. The Guardian chiude con una ulteriore stilettata verso Cupertino: mentre Google e Amazon consentono quantomeno la possibilità dell’opt-out, con Siri tutto ciò non è possibile. Eppure il gruppo ha più volte professato il proprio credo nella privacy ed ha difeso le proprie pratiche come un principio proprio dei valori del brand.
Toccherà ora ad Apple agire per smentire con forza e convinzione le accuse portate avanti, poiché la privacy è una best practice e, al contempo, una percezione: soltanto garantendo l’utente circa la segretezza delle conversazioni si potrà offrire a Siri la possibilità di continuare ad assistere in modo naturale la community degli utenti iPhone, iPad e Apple Watch.
Cosa accade a quanto pronunciamo affidandoci a un assistente virtuale per la ricerca di contenuti o l’esecuzione di comandi? Dove vengono salvati i file audio catturati dai microfoni di smartphone, tablet, smart speaker e smart display? Chi li ascolta? La nostra privacy è a rischio? Domande lecite, considerando la diffusione sempre più capillare di questi dispositivi.
I principali player nel mercato degli assistenti virtuali sono Google, Amazon (con Alexa) e Apple (con Siri). I primi due già permettono agli utenti di consultare la cronologia delle registrazioni, cancellandole se lo si desidera, anche attraverso un semplice comando vocale. La mela morsicata ancora non lo consente, ma rassicura gli utenti iOS che il trattamento viene effettuato con modalità rispettose. Un nuovo report condiviso dalla testata belga VRT fa emergere come a volte gli audio trasmessi ai server cloud delle piattaforme possano finire nelle mani, o meglio nelle orecchie, di terze parti.
In questo caso il focus è sull’Assistente Google. Il giornalista Tim Verheyden è entrato in possesso di circa 1.000 clip catturate dai device in questione e inviate da bigG a una realtà esterna che si occupa di trascriverle. Lo scopo è quello di impiegare il testo così generato per il miglioramento degli algoritmi che gestiscono l’intelligenza artificiale. Il problema è che talvolta contengono informazioni riservate, di natura privata, persino relative allo stato di salute: per la raccolta e l’elaborazione di dati di questo tipo il GDPR prevede che sia fatta esplicita richiesta al diretto interessato. Di seguito il filmato completo (si consiglia l’attivazione dei sottotitoli in inglese).
L’azienda con la quale si è interfacciato Verheyden afferma di trascrivere ogni settimana circa un migliaio di file audio in lingua fiamminga provenienti dai server del gruppo di Mountain View, indicando se è da attribuire a un uomo, a una donna o a un bambino. Alcuni di questi sono frutto di registrazioni avvenute per errore: chi ha un dispositivo con Assistente Google sa che talvolta la wake word (“Ok Google” oppure “Hey Google”) viene talvolta riconosciuta in modo erroneo, magari perché qualcuno in TV, in radio o nella stanza pronuncia qualcosa dal suono somigliante. Viene così dato il via all’acquisizione di tutto quanto accade nell’ambiente.
Sebbene le clip siano fornite alla società esterna in forma anonima, spesso includono informazioni personali. Uno dei dipendenti interpellati afferma di aver ascoltato una donna in stato di agitazione, presumibilmente vittima di una qualche forma di violenza. In altre viene chiesta la ricerca di contenuti pornografici, altri ancora trattano questioni affettive o problemi di salute. In questi casi, stando alla sua dichiarazione, non ci sono linee guida ben definite da seguire.
Interpellata sulla questione, bigG ha affermato di aver avviato un’indagine poiché così facendo l’azienda partner ha violato le policy legate alla sicurezza dei dati, confermando in ogni caso che è solita avvalersi di “esperti di lingue nel mondo” per la trascrizione dei file catturati dall’assistente. Un processo che interessa circa lo 0,2% di tutte le registrazioni. Espressa inoltre l’intenzione di migliorare la trasparenza verso gli utenti a proposito delle modalità con le quali i comandi vocali vengono catturati, salvati e gestiti.
L’obiettivo è quello di perfezionare continuamente l’efficacia degli algoritmi, istruendoli in modo che possano interpretare le istruzioni degli utenti anche in presenza di rumore ambientale o quando vengono pronunciate distanti dal microfono. Quella introdotta oggi rappresenta un’ulteriore misura di protezione, che va ad aggiungersi all'accorgimento che da fine giugno permette di eliminare le registrazioni presente nella cronologia, anche semplicemente chiedendolo ad Alexa.
Per effettuare l’opt-out dal programma di revisione dei comandi vocali non bisogna far altro che aprire l’applicazione dell’assistente virtuale, entrare nella sezione “Impostazioni” poi premere il pulsante “Privacy Alexa” e infine selezionare la voce “Gestisci il modo in cui i tuoi dati migliorano Alexa”. Ci si troverà così di fronte a una schermata che spiega le modalità di impiego delle registrazioni, seguita da due switch: il primo è “Contribuisci a migliorare i servizi Amazon e allo sviluppo di nuove funzionalità”, mentre il secondo “Utilizza i messaggi per migliorare le trascrizioni”. Quest’ultima fa riferimento ai messaggi inviati tramite l’IA. La stessa procedura è disponibile sul portale Web di Amazon.
Questa la dichiarazione affidata da un portavoce di Amazon alla redazione di Bloomberg, relativa alla novità.
Consideriamo molto seriamente la privacy dei clienti e rivediamo di continuo le nostre pratiche e procedure. Per Alexa, già offriamo loro l’abilità di impedire che le registrazioni vocali siano utilizzate per sviluppare nuove funzionalità. Le registrazioni vocali dei clienti che utilizzano che effettuano questo opt-out sono inoltre escluse dal nostro flusso di lavoro supervisionato che prevede la revisione manuale di un numero estremamente contenuto di richieste rivolte ad Alexa. Aggiorneremo anche le informazioni fornite così da rendere il tutto ancora più chiaro.
Anche Microsoft si affida a operatori esterni per l’analisi di una parte delle conversazioni vocali tradotte con Skype e per i comandi vocali impartiti all'assistente virtuale Cortana. È quanto rende noto un articolo pubblicato oggi da Motherboard. Una pratica in linea a quella attribuita di recente ad altri colossi del mondo hi-tech che offrono IA per l’esecuzione rapida di azioni su smartphone, tablet e dispositivi delle smart home come speaker o display: da Google ad Apple, passando per Amazon.
L’obiettivo dichiarato è anche in questo caso quello di migliorare l’affidabilità degli algoritmi di intelligenza artificiale impiegati per l’erogazione dei servizi. Facciamo riferimento a una pagina del supporto ufficiale in cui Microsoft parla della raccolta delle conversazioni tradotte con Skype al fine di migliorare le proprie tecnologie.
Quando si utilizzano le funzionalità di traduzione, Skype raccoglie le conversazioni per migliorare i prodotti e i servizi di Microsoft. Al fine di agevolare la crescita dei sistemi di elaborazione e riconoscimento vocale, così come la trascrizione automatica, le conversazioni vengono analizzate e le correzioni sono immessi nel sistema.
Un passaggio fa riferimento alla privacy, specificando che i file non sono riconducibili all’identità degli utenti che li hanno generati.
Per proteggere la privacy, le conversazioni impiegate per l’analisi vengono indicizzate con identificatori alfanumerici che non fanno riferimento agli utenti.
La stessa pagina sottolinea inoltre come la pratica non abbia alcuna finalità legata all’advertising.
Skype non utilizza le informazioni raccolte attraverso le funzionalità di traduzione per vendere inserzioni pubblicitarie.
Non si fa ad ogni modo alcun accenno a revisioni condotte da operatori in carne e ossa, men che meno a personale esterno al gruppo di Redmond. Questa la dichiarazione affidata dalla società alla redazione del sito che ha pubblicato il report, con riferimento al preventivo ottenimento dell’autorizzazione.
Ci impegniamo ad essere trasparenti a proposito di come raccogliamo e analizziamo i dati vocali per assicurare che i clienti possano effettuare scelte informate in merito a quando e come le loro informazioni vengono utilizzate. Microsoft ottiene il permesso dei diretti interessati prima di raccogliere e analizzare i loro dati vocali.
Rimane da capire come la società abbia intenzione di comportarsi ora che la pentola è stata scoperchiata. Ipotizziamo possa attuare contromisure in linea con quelle dei suoi concorrenti, puntando su una maggiore trasparenza delle informative sul trattamento dei dati e offrendo un’opzione per l’opt-out dai programmi di revisione.