L’intelligenza artificiale nelle mani di utenti imperfetti
npj Medicina Digitale volume 5, numero articolo: 197 (2022) Citare questo articolo
5965 accessi
3 citazioni
35 Altmetrico
Dettagli sulle metriche
Poiché l’uso dell’intelligenza artificiale e dell’apprendimento automatico (AI/ML) continua ad espandersi nel settore sanitario, è stata prestata molta attenzione a mitigare i pregiudizi negli algoritmi per garantire che siano utilizzati in modo equo e trasparente. Meno attenzione è stata rivolta alla risoluzione dei potenziali pregiudizi tra gli utenti umani di AI/ML o ai fattori che influenzano la dipendenza degli utenti. Sosteniamo un approccio sistematico per identificare l'esistenza e gli impatti dei pregiudizi degli utenti durante l'utilizzo di strumenti AI/ML e chiediamo lo sviluppo di funzionalità di progettazione dell'interfaccia integrate, attingendo a intuizioni dalla scienza delle decisioni e dall'economia comportamentale, per spingere gli utenti verso un approccio più critico e riflessivo. processo decisionale utilizzando AI/ML.
L'uso dell'intelligenza artificiale e dell'apprendimento automatico (AI/ML) continua ad espandersi nel settore sanitario, con grandi promesse per migliorare il processo decisionale clinico personalizzato1. Con la crescente diffusione degli strumenti AI/ML, è stata prestata molta attenzione alla mitigazione dei bias negli algoritmi per garantire che siano utilizzati in modo equo e trasparente. Tuttavia, è stata prestata meno attenzione alla mitigazione dei potenziali pregiudizi tra gli utenti umani dell’IA. Man mano che i sistemi automatizzati diventano più sofisticati nella loro capacità di prevedere, individuare o diagnosticare le malattie, aumenterà la tentazione di fare affidamento su di essi nel processo decisionale clinico2. Tuttavia, i fattori che influenzano la dipendenza degli utenti dall’intelligenza artificiale sono poco compresi e gli operatori sanitari non dispongono di linee guida sul ruolo che l’intelligenza artificiale dovrebbe svolgere nei loro processi decisionali. Sosteniamo un approccio più sistematico per identificare l’esistenza e gli impatti dei pregiudizi degli utenti durante l’utilizzo degli strumenti di intelligenza artificiale e i loro effetti sul processo decisionale clinico e sui risultati dei pazienti. Nello specifico, chiediamo una maggiore ricerca empirica su come mitigare i pregiudizi con esiti negativi previsti attraverso l’uso di funzionalità di progettazione dell’interfaccia integrate, attingendo a intuizioni dalla scienza delle decisioni e dall’economia comportamentale, per spingere gli utenti verso un processo decisionale più critico e riflessivo utilizzando strumenti di intelligenza artificiale.
Riconoscendo i potenziali danni derivanti da un eccessivo affidamento ai sistemi di intelligenza artificiale nel contesto di un processo decisionale ad alta posta in gioco, i regolatori e i politici sembrano sostenere il mantenimento degli esseri umani "nel giro" e concentrano i loro piani d'azione e raccomandazioni sul miglioramento della sicurezza dei sistemi di intelligenza artificiale/ML, ad esempio attraverso maggiore precisione computazionale3,4,5. Nel frattempo, gli sviluppatori stanno innovando nuovi modi per affrontare l'affidabilità, la responsabilità e la spiegabilità dell'intelligenza artificiale/ML "scatola nera" che coinvolge il deep learning o le reti neurali con significative limitazioni di interpretabilità6,7. Questi obiettivi sembrano essere particolarmente importanti quando si utilizza l’IA/ML nel processo decisionale clinico, non solo perché i costi di classificazioni errate e potenziali danni per i pazienti sono elevati, ma anche perché uno scetticismo eccessivo o una mancanza di fiducia possono ridurre l’adozione da parte delle parti interessate di nuove promettenti tecnologie di intelligenza artificiale. e inibire il loro utilizzo e disponibilità al di fuori dei contesti sperimentali.
Uno di noi (SG in Babic et al.8), tuttavia, ha recentemente avvertito gli operatori sanitari di diffidare delle spiegazioni che vengono loro presentate per i modelli AI/ML a scatola nera.
AI/ML spiegabile... offre motivazioni post hoc generate algoritmicamente per le previsioni della scatola nera, che non sono necessariamente le reali ragioni dietro tali previsioni o ad esse causalmente correlate. Di conseguenza, l’apparente vantaggio della spiegabilità è un “oro degli sciocchi” perché è improbabile che le razionalizzazioni post hoc di una scatola nera contribuiscano alla nostra comprensione del suo funzionamento interno. Invece, probabilmente rimaniamo con la falsa impressione di capirlo meglio."
Di conseguenza, invece di concentrarsi sulla spiegabilità come condizione rigorosa per l’IA/ML nel settore sanitario, gli enti regolatori come la Food and Drug Administration (FDA) statunitense dovrebbero concentrarsi in modo più olistico su quegli aspetti dei sistemi AI/ML che influiscono direttamente sulla loro sicurezza ed efficacia: in particolare, come funzionano questi sistemi nelle mani degli utenti previsti. Mentre la FDA ha recentemente pubblicato la sua guida finale riconoscendo esplicitamente i rischi di bias di automazione9 e sta lavorando a un nuovo quadro normativo per le modifiche al software basato su AI/ML come dispositivo medico (ovvero, software che è esso stesso classificato come dispositivo medico nella sezione 201(h)(1) della legge federale statunitense su alimenti, farmaci e cosmetici10), Babic et al. sostengono che anche i regolatori come la FDA dovrebbero, almeno in alcuni casi, enfatizzare studi clinici ben progettati per testare i fattori umani e altri risultati dell’uso dell’intelligenza artificiale in contesti del mondo reale. Gerke et al.11,12 sostengono analogamente che è necessario testare in modo prospettico più strumenti algoritmici per comprenderne le prestazioni in una varietà di contesti procedurali che rispecchiano le impostazioni d'uso previste e le interazioni uomo-intelligenza artificiale. Il tipo di test utente suggerito da questi studiosi va oltre i tipici test di usabilità e accettabilità che caratterizzano il percorso dalla versione beta a una versione più finalizzata di uno strumento di intelligenza artificiale. Questo tipo di test viene spesso eseguito in modo euristico13, utilizzando un piccolo gruppo di valutatori per esaminare l'interfaccia e giudicare la sua conformità ai principi di usabilità rilevanti (ad esempio, interpretabilità, utilità percepita, navigabilità, soddisfazione con l'uso, ecc.). Sebbene questi parametri siano spesso utili per valutare le esperienze utente immediate (ad esempio, test "UX") con l'interfaccia di uno strumento, è necessario un livello più profondo di test utente14 per aiutare a identificare e affrontare potenziali fonti di pregiudizi "emergenti" o "contestuali"15 che emergono a causa di discrepanze tra il design di un prodotto e le caratteristiche dei suoi utenti, casi d'uso o impostazioni d'uso. Queste discrepanze potrebbero essere più difficili da prevedere e da tenere in considerazione nel caso degli strumenti di intelligenza artificiale rispetto ai dispositivi medici o ai prodotti farmaceutici tradizionali, le cui prestazioni dipendono meno dalle interazioni e dalle interpretazioni dell’utente12 o i cui algoritmi adattivi cambiano continuamente16. La mitigazione di queste discrepanze può essere ottenuta solo ampliando la nostra nozione di test degli utenti oltre la sua attuale attenzione alle metriche delle prestazioni dell’IA e all’usabilità prossima per esaminare i fattori umani e sistemici che modellano il modo in cui i sistemi di intelligenza artificiale vengono applicati nella pratica17,18 da utenti imperfetti in contesti imperfetti. Inoltre, i test non devono limitarsi alla semplice osservazione di come gli individui in vari contesti interagiscono con gli strumenti di intelligenza artificiale; possiamo anche testare il modo migliore per modellare tali interazioni utilizzando le intuizioni esistenti nelle scienze comportamentali, come discuteremo di seguito.