Big-data, reti semantiche e intelligenza artificiale in una prospettiva politica

Intervista a Guido Vetere di M. Minetti

Guido Vetere cura il blog Cervelli nella vasca, su Nova de Il Sole 24 Ore, è il Direttore del Centro Studi Avanzati IBM Italia dal 2005. In IBM dal 1989, ha preso parte e guidato diversi progetti in Intelligenza Artificiale, Information and Knowledge Management, Tecnologie della Lingua, sia nell’ambito della ricerca, sia dello sviluppo per grandi imprese e pubblica amministrazione. Nel corso della sua attività professionale, è stato responsabile di progetti di ricerca applicata nazionali ed europei e ha diretto lo sviluppo di prodotti software IBM per il mercato internazionale. Ha guidato la progettazione e la realizzazione del registro semantico dei servizi di Cooperazione Applicativa della Pubblica Amministrazione. E’ stato coordinatore internazionale della rete dei Center for Advanced Studies IBM nel 2011. Partecipa regolarmente nei comitati di programma di conferenze internazionali nel settore delle tecnologie semantiche e nei comitati scientifici di programmi di ricerca europei. E’ autore di numerose pubblicazioni scientifiche in conferenze e riviste internazionali.

(i molti refusi sono dovuti all’uso fiducioso di intelligenza artificiale per la trascrizione dell’intervista)

MM: Una domanda introduttiva. Tu ti sei occupato soprattutto di reti semantiche, intelligenza artificiale. Ti volevo chiedere di se potevi spiegare in breve che cos’è e quali sono gli usi che al momento se ne fanno maggiormente. Dopodiché, se a tuo parere ci può essere un uso trasformativo, cioè se c’è possibilità che questi strumenti diventino dispositivi che possano avere una funzionalità emancipativa.

GV: Allora, rete semantica è una definizione anni ’60, da boomer. Oggi nessuno parla più di reti semantiche perché si usano altre locuzioni. Rete semantica è una nozione che è stata introdotta da John Sowa, ricercatore IBM degli anni ’70, ereditata a sua volta da un logico americano dell’800 che sì chiamava Peirce, di cui nostro Umberto Eco era un grande studioso.

E’ sostanzialmente un grafo, una struttura di dati in cui vengono rappresentate le entità e le relazioni tra entità. Una rete semantica di questa discussione, oggi, avrebbe due individui che parlano, due entità, due nodi con un link, oppure un evento con due protagonisti, un intervistatore e un intervistato. Una struttura che è formalmente un grafo, cioè una rete di nodi e archi. Sia i nodi, sia gli archi sono etichettati, hanno una Label, e questa Label, etichetta, è un concetto. Può essere un concetto unario: persona, tavolino, evento, o un concetto binario, cioè relazionale: “partecipa a”. Queste etichette, che sono dei concetti, quindi dei predicati, come si dice in logica, unari o binari, sono raccolti in un grande schema. Questo schema oggi lo chiamiamo ontologia, un termine un po’ pomposo, participio presente del verbo essere, ciò che è nel mondo. Una rete semantica, che oggi chiamiamo modernamente Knowledge Graph è una grande, certe volte enorme, rete di tutti questi nodi e archi che usano le etichette che vengono da una ontologia. La più grande rete semantica, cioè Knowledge Graph, che oggi abbiamo ce l’ha dentro la testa una tale Google, ha 5 miliardi di nodi che vengono fuori quando ricercate su Google qualcosa che punta a una persona, un film, un libro, un evento storico ben noto, eccetera. Questa rete è stata ottenuta largamente da Wikipedia quindi, paradossalmente, questa conoscenza è stata acquisita è costruita dalla gente. Io ho scritto delle voci che riguardano alcuni strumenti musicali rinascimentali e questa roba qua è andata a finire dentro Google, attraverso Freebase, una iniziativa collaborativa.

Queste strutture oggi le usano anche le imprese. Nel 2017 ho personalmente curato un volume sull’uso di strumenti di integrazione di dati nelle imprese. Ci sono oggi aziende che fanno queste questi Knowledge Graph tailored, mirati, cuciti sulle esigenze di specifici business.

Se ne può fare un uso sociale? Certo. Queste strutture si possono costruire e arricchire in seno a comunità. Quando hai delle strutture abbastanza grandi puoi fare delle interrogazioni, delle query congiuntive, più potenti di quelle che fa Google oggi. Google ha un Knowledge Graph ma non può fare query congiuntive. Se tu chiedi un film ti esce la scheda del film, ma se tu chiedi: “dimmi tutti i film che hanno per protagonista un regista la cui moglie si chiama Maria”, questa stringa qua non ti da niente, perché calcolare una query congiuntiva è computazionalmente costoso e Google non lo fa per disegno. Ti deve dare una risposta di 10 millisecondi, è questo il suo contratto, diciamo. Se tu invece sei in una comunità e c’hai un Knowledge Graph con un milione di entità, due milioni di entità e sono già parecchie, puoi fare query congiuntive tranquillamente, con degli standard che sono quelli del semantic web per esempio SPARQL, sono cose Open Source, gratis et amore dei, e lì puoi chiedere: “dimmi tutti gli articoli o interventi che parlano di Rifkin quando commenta qualcosa”. Puoi avere un accesso, una elaborazione e un’intelligenza su questi dati che é molto potente. Oggi ci sono delle piattaforme, anche Open Source, Apache Jena per esempio, Openlink Virtuoso, ce ne sono diverse alternative, parlo di Open Source, poi ci sono anche le piattaforme proprietarie, in cui uno le mette su, le alimenta, carichi dati bulk con il formato Turtle, nei formati del semantic web e fa e poi fai le query SPARQL. Poi ci vuole un front-end.., non dico che sia facile. Voglio dire, non puoi dire alla gente di fare query SPARQL, perché è come fare una query SQL.. C’è chi è in grado e si è dovuto studiare il manuale. Quindi voglio dire, sopra queste strutture va fatto un lavoro, un front-end e comunque non è accessibile a tutti, devi saper programmare. Non basta un applicativo e smanettare un po’. I dati devi immagazzinarli su un database, ma puoi farlo in modo decentralizzato. Puoi avere tante istanze di questo Knowledge Graph, ciascuno per nodo, e poi puoi federarli. Puoi fare query distribuite, ma quello è costoso perché poi fare query distribuite vuol dire che devi propagare la query, raccoglire i dati, devi duplicarli.. Cioè farlo in modo decentralizzato non è facile, però farlo in modo centralizzato, magari su un server gestito da una comunità, con certe garanzie, eccetera, eccetera.. Beh quello é perfettamente fattibile.

Allo stato dell’arte é molto facile, e anche open source per l’inglese, fare Named-entity recognition. Cioè su tutti i documenti vai a vedere, per esempio, le persone di cui si parla, le citazioni di, anche di avvenimenti, date, c’è una serie di classificatori che puoi usare per fare Named-entity, per fare analisi delle identità menzionate.

Si può fare Clusterization, cioè si può valutare la similarità semantica tra due documenti, e quindi poi si possono fare dei Cluster, delle analisi di topologia, diciamo così, della base documentale.

Si può fare, come dicevo prima, Summarization, un piccolo riassunto, le frasi chiave di un documento.

Information estraction, è un task un po’ più complicato, praticamente non estrae soltanto la Entity, cioè la la persona, l’evento etc.. per quella persona ma estrae anche degli attributi: “chi ha detto cosa a chi”. Quel frame lo puoi estrarre con tecniche di analisi del linguaggio naturale e può andare ad alimentare, per esempio, una struttura di rappresentazione semantica tipo un Knowledge Graph. Un Knowledge Graph, seguendo la moda di Google quando loro nel 2011 cambiarono il search engine e introdussero queste queste funzionalità semantiche. Quindi si intende quella che classicamente, in intelligenza artificiale, è una knowledge-base, una base di conoscenza. Tu potresti fare una base di conoscenza alimentata da tutta l’informazione che estrai da una base documentale. Questa roba qua si può fare. Non dico che sia facile soprattutto per l’italiano perché bisogna risolvere alcuni ritardi che ci sono nella produzione e disponibilità di risorse di language Model. In sostanza tutta sta roba funziona con intelligenza artificiale, c’è bisogno di reti neurali trainate, ora pretrainatete. Ovviamente tu non puoi metterti a fare una rete neurale dell’italiano così da zero. Questi language Model sono disponibili tipicamente per Inglese, per altre lingue, un po’ meno per l’Italiano. Comunque è una cosa che si può fare ma è tecnicamente impegnativa se si parla di una piccola comunità, che produce una piccola quantità di documenti, di dati, eccetera. Io sconsiglierei di infilarsi in un discorso del genere per analizzare pochi documenti e consiglierei invece dei metodi che prevedono il fatto che chi produce, scrive un articolo, poi lo tagghi, cioè faccia le cose classiche.

MM: Noi abbiamo sentito parlare di software di analisi semantica tipo Nvivo o T-lab, cose del genere. Software commerciali. Secondo me, per quello che ci dobbiamo fare noi, non conviene mettere su un software per fare analisi semantica sui contenuti della nostra rivista Rizomatica.

GV: No, assolutamente.

MM: Potrebbe avere più senso farlo su un ambiente social? Dove c’é una massa prodotta da più persone in modo un po’ random. Insomma, penso che questo comunque già venga fatto però, visto che noi abbiamo un nodo Social, connesso col fediverso con alcuni protocolli, avrebbe forse più senso fare un’analisi semantica sui post, che poi sono già taggati. Quindi hanno già una certa organizzazione. Immagino che questo sia quello avviene nei grandi Social commerciali. Non viene fatto nel fediverso perché nessuno ha interesse, però potrebbe essere una prospettiva perchè si potrebbe avere accesso a tutti quei nodi che usano questo protocollo federato, quindi c’è una massa di dati molto maggiore che non quella che produciamo noi, ovviamente.

GV: Si può fare questo lavoro in modo federato. Ma questo questo social, Hubzilla, che voi usate, si basa sullo standard e protocolli che si chiama activitypub?

MM: Activitypub è quello di Mastodon, è il più usato e ha il più grande numero di utenti. In Italia si è un po’ affermato. Questo che usiamo noi, è federato non solo con activitypub, cioè ha un traduttore per activitypub, ma un suo protocollo che si chiama zot6. Mentre activitypub è in chiaro, zot6 è criptato quindi praticamente comunica o solo con quelli che usano questo protocollo zot6, oppure tu metti dei plug-in che te lo traducono anche in activitypub, OSstatus e in Diaspora. Diaspora è andato un po’ a perdersi. Quindi diciamo che sì, comunque accede anche ai dati activitypub.

GV: Allora, fare delle analisi di polarizzazione sui social network è tecnicamente allo stato dell’arte per quanto riguarda la sentiment analysis, perché è una pratica che è stata molto sviluppata in ambito commerciale per le recensioni, eccetera, eccetera. Bisognerebbe sviluppare tutta la modellistica neurale che serve per calcolare queste polarizzazioni nel campo del discorso politico, eccetera.. e questo è un lavoro che sarebbe molto bello fare ma ci vogliono risorse. Insomma è un progetto di ricerca, ci vorrebbe qualcuno con le spalle grosse dietro.

MM: Se ci fossero degli strumenti che si potessero sviluppare sull’ambiente Fediverso, sarebbe più interessante perché, in un certo senso, potrebbe farti vedere cosa produce questa collaborazione sociale: se rispecchia delle identità, delle bolle che poi in realtà riverberano anche là dentro, cosa molto probabile, oppure se è in grado di sviluppare una narrazione differente e che può avere un senso. Non dico che ci porterebbe chissà quale conoscenza, però potrebbe essere divertente. Come dire, vediamo che cosa produce! Quello che magari Facebook, al suo interno, fa per scopi commerciali, noi potremmo farlo per capire cosa produciamo nella comunità separata. Il risultato può essere anche: “ammazza che schifo!” Magari cerchiamo di essere più produttivi, cioè cerchiamo di produrre una conoscenza migliore. Magari possiamo usare il nostro tempo in modo più utile. Che cosa si potrebbe usare, quale potrebbe essere uno strumento accessibile a un programmatore pigro, senza bisogno di uno staff, una cosa che possiamo chiedere di usare a sviluppatori che conosciamo?

GV: Uno si chiama Spark NLP, in italiano c’è qualcosa. Named Entity Recognition si fa con una certa accuratezza e é molto scalabile, una cosa che funziona bene anche per ambienti industriali . Spark NLP si programma o in Python o in Scala. Se siete veramente nerd usate Scala che è un linguaggio fantastico. Poi c’è Spacy che è solo Python, che è un po’ più facile da usare, se programmato in Python è cotto e magnato. Ci sono delle alternative, adesso per l’italiano c’è una cosa fatta dal mio amico mio amico Matteo Grella che si chiama Spago che è fatto in Go, che è un linguaggio, purtroppo di Google, però é bello, a me non dispiace ed é abbastanza facile da usare. Va bene per cose piccole perché non usa gpu, non è molto scalabile, però per pochi dati va benissimo. Insomma ci sono ste cose qua che si trovano su Github, sennò a più basso livello c’è tutto lo stack di Pytorch BERT tutta la roba che ha messo su Facebook, sostanzialmente ma che è embeddata sia dentro Spark nlp, Spacy sia Spago, che offrono delle pipeline out-of-the-box. Cioè tu dici, voglio fare Named Entity Recognition su sto documento e ti escono fuori. Poi devi processare, filtrare, alcune vanno buttate, non è non finisce lì non è proprio immediato, però se c’è qualcuno che ci lavora quella è una buona base. Ma c’è ancora Avana a Forte Prenestino? Una buona idea sarebbe un laboratorio sociale di sviluppo di questi aspetti di IA. Si potrebbe fare e sarebbe molto interessante, se lo fate io già prometto di darvi una mano.

Secondo me, è una cosa a cui mi piacerebbe che qualcuno, eventualmente anch’io marginalmente, si dedicasse é articolare un po’ il discorso dell’argomentazione sui social. Cos’è l’argomentazione? E’ stata sviluppata nei decenni passati una teoria che si chiama Abstract Argumentation Theory, teoria astratta dell’argomentazione. Che significa? Che tu puoi definire in uno scambio, in un battibecco, anche in un Flame, quelli che sono le relazioni tra i diversi interventi: uno attacca un’altra supporta quando già solo con la distensione attacco supporto tu puoi disegnare dei grafi sostanzialmente e per esempio calcolare qual è l’opinione più supportata. Insomma ricorda un po’ liquid feedback, nel senso che c’è supporto, però non è non è un discorso di delega, è un discorso di strutturazione dello spazio argomentativo che c’è in una rete sociale. Questa Abstract argumentation Theory è stata sviluppata però in ambito scientifico, cioè laddove la discussione verte su fatti scientifici, empiricamente dimostrati. E lì, voglio dire, va bene: è stata fatta la teoria, sono state fatte sperimentazioni… Se invece ci si sposta dall’asse diciamo epistemico, cioè verificabile o falsificabile a quello doxastico, dell’opinione, o nell’ambito diciamo assiologico, cioè dei valori, quali orientamenti stai esprimendo, lì è tutto un lavoro da fare e sarebbe anche interessante svilupparlo dal punto di vista teorico. Quindi una comunità di pratica che volesse diciamo sviluppare questo tema avrebbe anche la possibilità secondo me di coinvolgere contributi di elaborazione anche teorica su questo e sarebbe interessante. Sarebbe interessante vedere le intersezioni che ci sono tra il piano epistemico e piano doxastico. Cioè le tue credenze sono allineate con le cose che sai? Ok, cioè tu sai che sono stati uccisi sei milioni di ebrei, ancora credi che il fascismo sia una buona cosa?

MM: Abbiamo fatto un po’ di tempo fa un’intervista a Quattrociocchi, non so se lo conosci. Lui ha fatto studi di questo tipo, sulla verità scientifica e sulle fake news e interazioni social e ci ha spiegato un po’ di cose. Devo dire che mi ha abbastanza convinto, nel senso che proporre studi scientifici descrivendo ciò che accade nelle interazioni sociali in rete, che non significa, lui lo ha specificato bene, non significa nelle interazioni sociali perché non puoi trasferire quello che succede su internet nel mondo reale, perché una cosa é come funziona lì dentro, chi sta lì dentro è perché sta lì dentro è una cosa e invece le discussioni vis-a-vi non funzionano come sui commenti Facebook. Quindi non puoi trasferire l’odio on-line nel mondo reale perché sennò saremmo tutti morti.

GV: All’osteria se volemo tutti bene…

MM: Sì, se volemo tutti bene, se bevemo un bicchiere de vino, il fascista e il compagno…alla fine.. Invece quando sono on-line si vorrebbero ammazzare. Comunque Quattrociocchi ha scritto un paio di libri su queste cose, uno è Liberi di crederci sulla postverità e poi altre cose sulla polarizzazione e sull’auto segregazione dei gruppi delle echo chambers. A noi quello che ci è arrivato è che di questa roba, sinceramente, non ce ne frega. Siamo arrivati un po’ al l’idea che l’argomento è sicuramente interessante per chi studia queste cose. Se c’è un progetto di ricerca importante e finanziato dove tu cerchi di capire come evolve la rete, a quali meccanismi ti porta e sicuramente ha senso. Diciamo che dal punto di vista di un’azione politica, tra l’altro di un gruppo microscopico come siamo noi, l’analisi della comunicazione in rete è un’obiettivo fuori portata.. Magari a un partito grosso gli interessa una cosa del genere, perché comunica molto in rete e gli interessa capire l’estensione, la risposta e l’efficacia della sua comunicazione. Gli interessa che sì!

GV: Nei partiti grossi.. perché te non hai vissuto come ho visto io nell’associazione Network, che era l’area tematica dell’Ulivo ai tempi dei Prodi si era negli anni ’90, quando si parlò di usare quella che era al tempo la nascente socialità in rete, per scopi di elaborazione politica e lì il grosso partito, che era PDS poi PD eccetera, per le stesse ragioni di oggi, disse no. Che facciamo cediamo della sovranità..? No. Se vedi quello che sta facendo il PD adesso, che cosa fa? raccoglie contributi a random in quel che resta dei circoli, li mette in un calderone, farà un po’ di analisi, loro dicono semantica, con intelligenza artificiale ,spendono queste parola trendy e dopodiché che cosa ci faranno?

MM: Faranno come i 5 Stelle: la direzione valuterà quello che gli va bene e quello che non piace non si farà. Qual è il problema? Cioè, che non puoi dire quello che ti pare? Certo!

Rispetto all recente processo di consultazione Europea, futureu.europa.eu si chiama. Hanno messo su un Decidim della Comunità Europea dove fare proposte dal basso di singoli e realtà associative, corpi intermedi quello che è per proposte programmatiche per l’Europa su vari temi e hanno usato Decidim che adesso va molto di moda. Noi in Demosfera l’abbiamo messo su un Decidim, è pronto intatto, lucido… nessuno ci fa niente, perché, che ci dobbiamo fare? L’idea era di metterlo a disposizione di chi ne ha bisogno. Chi ne ha bisogno oggi cominciano a essere un po’ le istituzioni comunali fondamentalmente, cioè la politica. Però ovviamente i comuni non si rivolgono a Demosfera, adesso arriva qualche contatto ma probabilmente non è il soggetto giusto a cui chiedere questo servizio. So che sono partiti alcuni progetti al Comune di Milano mi sembra e sono partite alcune desti progetti perché questa idea di fare advocacy, di fare comunque consultazioni pubbliche, progetti partecipati sul piano soprattutto territoriale sul livello Municipale sta diventando sempre più di senso comune, grazie ai cinque stelle che hanno sdoganato questa modalità. Adesso anche la Comunità europea lo sta facendo. Visto che noi proponiamo l’uso di strumenti consultivi e decisionali, ci hanno chiesto un parere, così cerchiamo di capire bene di cosa si tratta e se abbiamo qualcosa da dire al riguardo. Volevo sapere se tu ne sapevi qualche cosa e se secondo te questo è un calderone, tipo quello che dicevamo del PD, che poi questo che che fine fa ed è solo un modo per far sentire le persone partecipi oppure potrebbe essere già un nuovo canale attraverso cui la partecipazione politica passa. Cioè non passa più attraverso i circoli dei partiti ma passa attraverso consultazioni, diciamo dall’alto, molto dall’alto in questo caso, che però chiedono proposte dal basso.

GV: Secondo me questa tendenza accompagna, almeno qua in Italia, la perdita di ruolo del dell’associazionismo del partito politico come luogo di elaborazione, diciamo ideale, e sposta il baricentro in basso, sui territori sulle decisioni concrete, minute. Rifacciamo il pavimento di questa piazza o rifacciamo quella della piazza accanto? Parliamone. E quindi dal basso nasce una discussione, si decide, si delibera su un fatto concreto, specifico territoriale. In mezzo manca ancora qualche cosa questo. Perché abbiamo ormai dei partiti abbastanza verticistici, autoreferenziali, basati sulle personalità, sul consenso mediatico, sullo slogan, su questi fatti di macro comunicazione, di sollecitazione delle emozioni ideologiche in senso lato, valoriali. Sì, sì cacciamo gli immigrati, per esempio. Che ti hanno fatto qualcosa? Boh, a me no. Però idealmente li vorrei cacciare. Oppure viceversa: accogliamoli tutti! Perché c’è modo di accogliere tutti? Non lo so, però però Gesù ha detto così, quindi è bene… Poi c’è un livello diciamo decisionale minuto, particolare, dettagliato spazio-temporale molto molto delimitato, e lì ci sono questi strumenti che sono maturi. Chiunque può mettere su un Decidim, che ci vuole? Ce l’ha fatta Demosfera, ce la può fare chiunque. Quindi sì, c’è da aspettarsi che questi strumenti diventino diffusi.

C’è ancora uno spazio, tra questi due tra questi due scenari, che resta da sviluppare, da esplorare. Uno spazio che riguarda, non tanto la decisione specifica, tattica, ma riguarda i temi macroeconomici, lo sviluppo, il futuro del lavoro, queste cose qua su cui non è che si decide. Cioè non è che una comunità di base decide se resta quota 100 oppure se si torna alla Fornero, perché lo deciderà il Consiglio dei Ministri. Tiè. Però crei delle narrazioni, dei dibattiti che possono trasformarsi con un dei processi, che però a questo punto riguardano gli assetti istituzionali e i modi di selezione della rappresentanza politica, eccetera e che quindi si trasferiscono sul piano politico propriamente detto. Questo trasferimento della discussione sociale, ampia, ideologica nel senso buono del temine, che coinvolge il piano dell’orientamento e che poi si trasferisce sul piano della rappresentanza politica, ecco questo manca e in questo momento non c’è, a mio modo di vedere, una proposta politica in tal senso. Non so cosa intenderà fare Conte col nuovo Movimento 5stelle, essendosi separati da Rousseau, PD non pervenuto. Avevano annunciato l’anno scorso una App per mettere in comunicazione interna la base degli iscritti, ma poi non se n’è più fatto niente. Quello che hanno fatto ultimamente secondo me non va nella direzione di una dibattito orizzontale, insomma fra le comunità degli scritti. C’è uno spazio molto grande da occupare..

MM: Anche secondo Quattrociocchi, le comunità digitali, la socialità digitale aggrega persone che la pensano allo stesso modo ma non crea la comunità. La comunità si raccoglie attorno a una narrazione, quindi attorno ad un’identità se vogliamo. Può essere di tutti quelli che vogliono cacciare tutti gli immigrati o di quelli che invece li vogliono accogliere tutti, quelli che sono contro lo Stato e contro tutti, quelli che invece sono per l’ordine e la disciplina… cioè ci sono dei filoni valoriali di narrazione e le persone poi, on-line e anche non on-line e poi quando vanno a votare, si aggregano attorno a queste narrazioni. Le narrazioni sono il più identitarie possibile per poter identificare l’ambito in cui pescare insomma e quindi, in realtà, non sono delle proposte politiche, sono delle bandiere. Quindi l’idea nostra, un po’ nel piccolo, nel microscopico, é quella di trovare delle narrazioni emancipative, trasformative. In passato i portatori di queste narrazioni sono stati i giornali, almeno prima di internet erano soprattutto i giornali, adesso possono essere anche dei blog che possono essere anche molto seguiti. L’attività politica vera e propria, quella di produrre elaborazione, di raccogliere e organizzare persone attorno a questa elaborazione, oggi la devono fare gli organi che producono informazioni, che producono narrazione, che producono qualcosa. Quindi non può essere il social in sé, come non può essere lo strumento Decidim. Usi lo strumento perchè hai qualcosa da fare, se no perché ci devi andare? Che devi decidere? Il senso è qui apppunto. È una battaglia tra chi è in grado di produrre narrazioni e attualmente, quella che è diciamo la sinistra non istituzionale, non rappresentata in parlamento, risulta assente, perchè il PD ancora ha un peso una voce e ha degli organi di informazione. Che possono essere i giornali, le TV, i comunicati istituzionali. Chi è fuori da questi centri di informazione rimane nel social, fra le tribù che si combattono ma non creano una collaborazione e produzione di senso aggregante. Ci combattiamo nei nostri commenti Facebook.. Ma chi se ne può fregare di meno, andiamo oltre. Però come facciamo ad andare oltre? Ci dovremmo chiedere questa cosa mentre tutte le varie progettualità politiche che nascono fondamentalmente sono tutte tribù che dicono venite sotto la mia bandiera, io la penso così: manifesto di questo e quest’altro, e siamo quattro, manifesto di là e siamo in quindici..

GV: Tra l’altro siamo siamo 15 e vogliamo controllare l’organizzazione. Deve essere chiaro che il comitato decisionale siamo noi 15!

MM: Stefano Simoncini mi ha mandato una domanda per te. In riferimento a quanto ha scritto Francesca Bria recentemente, dice: “l’Europa può intraprendere una terza strada oltre il Big Tech, il capitalismo della sorveglianza di Silicon Valley, e il Big State, l’autoritarismo digitale che conosciamo dalla Cina, quella della Big democracy: un nuovo umanesimo digitale con un tocco europeo unico sull’innovazione, che garantisca la nostra autonomia strategica e competitività, la piena partecipazione democratica dei cittadini e dei lavoratori, che protegga i dati, l’ambiente e i diritti fondamentali delle persone” La domanda è: ci credi? E’ fattibile? In entrambi i casi, perché?

Chiede anche: “non c’ è solo la geopolitica, ci sono gli effetti in vari ambiti della vita associata delle forme attuali della mediazione digitale. Quali ritieni siano gli ambiti più colpiti, e perché? La dimensione cognitiva individuale, opinione sfera pubblica, assetti politico-istituzionali, modi di produzione e lavoro, capitale sociale, sistemi locali, eccetera… Quali sono esattamente le forme di mediazioni più deteriori per il capitale sociale individuale e collettivo?

Chiede pure: quali ritieni essere le forme alternative più credibili e realizzabili? Il ritorno alle origini delle piattaforme decentrate? In che ambiti vedi le esperienze più significative e promettenti?

GV: Mi chiede un sacco di cose. Domande da $100.000, però io partirei da una cosa che è successa recentissimamente cioè il 21 aprile scorso, quando la Commissione Europea ha presentato in parlamento una proposta di regolamentazione dell’uso dell’intelligenza artificiale. Che cosa dice questa proposta? In pratica dice: “beh noi non possiamo accettare che vengano usati strumenti di intelligenza artificiale per la profilazione personale che discriminano… e dobbiamo garantire alla cittadinanza Europea dei diritti fondamentali di non discriminazione di tutela della privacy e di non-deception, di non essere ingannati, in qualche modo da queste intelligenze artificiale. Leggasi la capacità di raccogliere immensi volume i dati, profilare e decidere sulla tua timeline Facebook o nei risultati di Google cosa vedi e cosa non vedi, eccetera, eccetera… Sottrarsi un po’ a questo potere che viene dalla concentrazione sia dalla dalla disponibilità di tecnologie intelligenti.”

Come vuole farlo la Comunità Europea? Si legge abbastanza in chiaro in questa proposta un modello di sviluppo, alternativo a quello delle Big Tech, sostanzialmente decentralizzato, cioè basato sulla produzione, la disponibilità di dataset aperti, la produzione di software, per la fatto che soprattutto chiunque offra servizi che contengono o usano intelligenza artificiale certifichino questi questi servizi, proprio con marchio CE, cioè col marchio di prodotto conforme alle direttive della comunità europea, così come se fosse un casco di motocicletta. Che significa? Che il Big Tech che vuole vendere un servizio in Europa deve prendere farlo certificare. E cosa significa farlo certificare? Significa che qualcuno va in quella che loro chiamano Sandbox, ambiente di test sostanzialmente, di sperimentazione, qualcuno che sia in grado di andare a vedere come funziona il sistema, vedere il dataset come é fatto. E’ all’atto pratico un grosso sistema protezionistico. Cioè l’economia, l’infosfera europea si protegge, in qualche modo si isola, da quelle che sono queste presenze. Questo prefigura un modello di sviluppo alternativo, diverso, europeo. Questo modello sviluppo europeo è basato sulla decentralizzazione come ci insegna la Francesca Bria. Quindi su una conoscenza diffusa, perché poi se voglio dire se dobbiamo fare queste sandbox. Se dobbiamo acquisire come sistema geopolitico, una capacità critica nei confronti di queste tecnologie, è chiaro che abbiamo bisogno di competenze diffuse. Non basta un centro in cui si capisce tutto ma serve che ci siano conoscenza e la formazione ci sia tutto un movimento. È fattibile questo? E’ possibile? Sta di fatto che la comunità europea che c’ha lavorato per 2 anni con un gruppo di esperti, indica questa come prospettiva.

Io personalmente vedo alcune, diciamo, difficoltà intrinseche. Tuttavia approvo l’impianto. Nel mio piccolo cercherò di di supportare questa visione e dobbiamo tutti secondo me cercare di capire come portare questo modello di sviluppo nella realtà. Dipende molto anche da noi.

MM: Quindi diciamo: se è fattibile, lo scopriremo. La chiave che tu indichi, del protezionismo, è abbastanza evidente. E’ chiaro che finora abbiamo subito una dipendenza dalla tecnologia statunitense, principalmente, e c’è una volontà, anche per ragioni militari, di sicurezza e geopolitiche, di acquisire queste competenze e riportarli in casa. Per questo devi mettere delle regole, come è stato con il GDPR, che è stato il grimaldello per dire: tu i dati, se li prendi qui, devi rispettare certi standard che a casa tua puoi anche non rispettare, ma qui li devi rispettare. Quella potrebbe essere la chiave con cui dire di no a Google che adesso (con la Didattica a Distanza) ha i dati di tutti gli studenti italiani, perché lo Stato italiano non aveva una piattaforma per fare questa didattica a distanza e scopre che c’è bisogno che ce l’abbia.

GV: E qui veniamo a noi. Come si fa a fare in modo che ce l’abbia? Fino a qualche tempo fa, la procedura sarebbe stata: indire una gara pubblica, farsi dare dai fornitori stessi, tipicamente poi grandi multinazionali come Microsoft, IBM, Accenture, eccetera.. le veline per la gara d’appalto.. – lo dico apertis verbis – nominare una commissione ad hoc, che conosceva già l’esito della gara, affidare diciamo le chiavi di questa macchina a qualche fornitore… Questo è stato insomma, per decenni, il modello. Ora se noi vogliamo giocare sul serio nella direzione che l’Europa ci chiede, come diceva Monti: “ce lo chiede l’Europa”, dobbiamo cambiare questo paradigma, questo modo di gestire le cose. Credo che molta della perplessità sull’assegnazione dei fondi per il Recovery Plan all’Italia giri attorno a questo, a come gestiamo noi questi processi. Come li gestiamo? Qui è dove esiste la nostra sfera di influenza. Noi dobbiamo dire qualcosa di chiaro e forte su come andrà gestito questo processo sulle nostre sponde.

MM: Sembrerebbe però che siano molto pochi quelli che hanno qualcosa da dire su questo argomento. Quella quella narrazione, che appunto fa avere il consenso, di queste cose si interessa poco… Comincia ora, un po’, a diventare un tema..

GV: Eh no! Perché, lo vogliamo dire? C’è stata una collusione di tutto il sistema nel suo insieme, perché grossomodo un sistema in cui ci sono pochi centri decisionali che spartiscono e gestiscono il potere; in cui c’è comunque una negoziazione con manuale Cencelli… Cioè tu c’hai questo appalto, tu c’hai quest’altro, tu c’hai le cooperative , tutti hanno partecipato a questo modello di gestione delle cose, di spartizione.. Vogliamo cambiare sta roba qua? Certo chevogliamo cambiare, dobbiamo cambiare. Perché questo modello qua non produce efficienza, non produce economia, produce dis-economia e possiamo ancora permettercelo? Possiamo chiedere all’Europa di darci stramiliardi per appaltarli, per suddividerli nel modo in cui abbiamo fatto fino adesso? Non è più possibile. Quindi è chiaro che nell’agenda devono entrare questi temi.

MM: Adesso, a parte Google che la usa per darti i risultati di quello che tu cerchi, chi è che usa queste queste tecnologie? E perché.

GV: La usano le imprese, per esempio, per risolvere il sempiterno problema del data integration. Qualsiasi business ha bisogno di integrare da non anche nella stessa organizzazione ciascuna business unit ha il suo database ciascun database, fatto col suo schema da suo nel suo momento col suo capo e per la stessa impresa nel loro interno integrare questi dati è sempre stato un casino, un problema su cui le grandi società di servizi hanno sempre fatto i loro business, Accenture, IBM… Diversamente SAP ha avuto tutto questo successo perché ha risolto a monte, tu ti prendi il mio schema e poi lo espandi, ma sulla base del mio schema, che ti permette di integrare i dati omogenei, ma questo funziona per un certo tipo di mercato. Ora invece, grazie all’Open source, si danno delle prospettive di apertura del mercato e cioè tutto un altro discorso. Su grande scala, se tu dovessi integrare l’informazione di una grande azienda multimiliardaria e multinazionale continueresti a rivolgerti a grandi fornitori, ma qui stiamo parlando di volumi di dati, in questo caso, relativamente piccoli, un milione di nodi in un Knowledge Graph sono pochi, li fai su un serverino da quattro soldi.

MM: Allora diciamo che questa tecnologia produce la possibilità di ottenere delle informazioni integrate da una grande massa di dati. Questa conoscenza che poi uno riesce a estrarre da queste relazioni, da queste occorrenze la usa per per funzionare meglio come organizzazione. Questa intelligenza sui dati, quindi, non è utile a tutti. E’ utile a chi ha bisogno di un certo tipo di informazioni, ad esempio una istituzione. Ad esempio, al Comune di Roma gli servirebbe questo tipo di conoscenza?

GV: Ecco, se vai a vedere il Comune di Roma, pubblica gli Open Data, ad esempio delle segnalazioni della cittadinanza proposito di malfunzionamenti. Se tu vai a vedere questi Open Data sono dei file CSV (comma separated value) con dentro i campi codificati con delle diciture, delle stringhe, un po’ di invenzione. Se tu vuoi fare oggi su quegliOpen Data, che ti puoi scaricare in due secondi, se vuoi fare una query tipo: “Dimmi tutte le segnalazioni di gatti morti nel Municipio II..” Ecco lì c’hai un problema, cioè non è una cosa che riesci facilmente a tirare fuori. Ecco, qualsiasi cosa ti interessa estrarre devi fare un po’ di Data Science, nel senso devi andare a capire quali sono quei dati…cioè non sono facilmente accessibili alla cittadinanza. Insomma è un luogo comune dire, bisogna fare gli Open Data. Poi se tu vai a vedere concretamente quello che producono i comuni, primo non è molto standardizzato. Quando ci fu una prima indagine sugli acquisti, sul bilancio, sui capitolati degli acquisti dei beni dei vari comuni d’Italia, esportati in Open Data, secondo direttive AGID… Si è scoperto che ogni comune codificava generi merceologici, acquisti.. a capocchia sua. Perchè mancava un’Ontologia. Non c’era un criterio per registrare le spese, per restringere le diciture ad alcune comunemente intese. E’ sempre mancata, al livello di Pubblica Amministrazione italiana, un discorso di integrazione semantica perchè si è sempre detto: “fate i vostri dati, poi qualcuno li integrerà..”. Poi passerà Accenture.. per dire, passerà qualcuno a fare il lavoro. Comunque non sono aggregabili, non solo facilmente accessibili alle organizzazioni della cittadinanza attiva.. Cioè Openpolis si fa un lavorone, per esempio, per integrare, concettualizzare i dati. E’ un lavoro faticoso che non è facilitato da una politica e da politiche intelligenti di gestione di questi dati di cui pure si parla ai convegni, posso testimoniare perché ho cominciato a parlarne nel 2004 al Forum PA, quasi vent’anni fa, che se ne parla almeno da 30 anni, ma non si è fatto per vari motivi, non credo complottisti. Non si è fatto e basta perché c’è poca comprensione del problema.

MM: Nel gruppo di Rizomatica c’é Valentina Bazzarin che ha collaborato anche con Openpolis. Lei si occupa di dati, discriminazioni di genere e differenze in generale, mentre io ci capisco poco. Volevo chiederti, non è che questo aspetto dei dati è forse anche un poco sopravvalutato? C’è a mio parere una sopravvalutazione dell’aspetto del valore dei dati, del valore-dato. C’è chi pensa che il dato, piuttosto che la merce, produce valore e questa idea deriva anche dal fatto che ora le compagnie che fanno più profitti sono quelle che operano con i dati. Però non è detto che producano più valore, fanno solo più soldi. Sono le compagnie big-tech che svolgono questo compito di estrazione dei dati, poi però vendono pubblicità, non vendono dati. Però passa un po’ la narrazione: le aziende FAGAM fanno tutti questi soldi perché hanno i dati di profilazione. Sicuramente li usano, però quello che vendono in realtà è la vecchia pubblicità, certo non vendono dati, vendono un servizio. Mi viene cioè questa idea, siccome i dati, i Big Data, non sappiamo bene cosa sono, rimangono misteriosi. Si forma l’idea che i dati producano valore da soli, che oggi si produce il valore tramite i dati, tramite l’appropriazione dei dati, l’estrazione dei dati, l’elaborazione dei dati… mentre forse questa è un po’ una mistica. Si vende per esempio il valore di rete del fatto che su Facebook ci stanno due miliardi e mezzo di persone e se ne possono conoscere i gusti. È vero che questi sono dati e si usa la tecnologia per elaborare questi dati però la pubblicità che viene fatta sulle piattaforme così non è detto che sia effettivamente poi così mirata e così efficace. Spara un po’ nel mucchio, poi funziona pure, come funzionava quella televisiva, magari é un po’ più mirata di quella televisiva ma può solo spostare flussi di mercato esistente, non crearne dal nulla.

GV: Però di fatto è stato un modello di business che ha funzionato fino adesso. Il tema é se funzionerà per sempre.. probabilmente no. Poi però dobbiamo costruire alternative.

Sui dati, sul valore dei dati grava ancora un grosso equivoco, diciamo di carattere epistemologico. Anni fa, forse nel duemila, su Wired uscì un editoriale di Chris Anderson che si chiamava The End of Theory, la fine della teoria e lui diceva questo: ormai si parlava già di Data Deluge, diluvio di dati Ormai nei dati c’è tutto. Non ci serve non serve più elaborare delle teorie sulla realtà, oggi abbiamo l’integrale della realtà l’integrale della realtà riassorbe la teoria. Lui è stato, diciamo, messo sulla graticola, crocifisso dagli studenti di epistemologia al primo anno basta aprire non dico Popper ma basta molto meno. Gli è stato detto: stai dicendo una cazzata.. Tuttavia quella lui aveva avuto è stata un’intuizione che poi però all’atto pratico si è affermata. C’è un po’ questa idea dei dati. I dati… Ci servono i dati. Lo stesso concetto di Data Lake, il lago di dati. Quando arrivò Piacentini, chiamato da Renzi a fare il commissario per la digitalizzazione della pubblica amministrazione, chiamò Data Scientists per fare questa specie di startup di Stato. I ragazzi che furono incaricati, selezionati, con approccio tipicamente soluzionistico, cioè c’è un problema c’è la tecnologia, la tecnologia risolve il problema, se ne uscirono con questa idea del Data Lake. Pigliamo tutti i dati che la Pubblica Amministrazione produce, li mettiamo in un calderone e poi con algoritmi, con notti insonni vegliate al lume del rancore, ne trarranno del valore. Ovviamente questa cosa è naufragata ma per mille motivi che è inutile stare a dire, cioè si è trasferita adesso pare all’ISTAT dove, però, su un ambito ben specifico di dati statistici, quindi che vengono già con un livello di specifiche eccetera eccetera lì il Data Lake ha senso. Chiaramente non ha senso at large per quanto riguarda i dati pubblici in generale. E lì, secondo me, si é perso un po’ di tempo. Manca ancora al livello di gestione di dati pubblici in Italia, secondo me, e lo vado dicendo e scrivendo da anni, come dimostra il colore della mia barba, manca ancora una visione di queste problematiche ed è il momento di mettere mano. Ormai il ritardo é pesante

MM: Sembrerebbe che manchino persone che ne capiscono. C’è questa fiducia in Italia di tipo, appunto, soluzionistico: basta interrogare i dati e abbiamo la risposta. Come se la risposta fosse nei dati. Ma i dati possono essere di qualità o non di qualità.

GV: Certo la risposta è nella tua interpretazione dei dati. Cioè viene completamente saltato il livello dell’interpretazione, cioè della semantica. Semantica è interpretazione: aliquid stat pro aliquo, qualcosa sta per qualcos’altro. Qual è quella freccia che unisce qualcosa e qualcos’altro? L’interpretazione. Se tu governi, anche formalmente il livello dell’interpretazione, anche con strumenti socio-tecnici adeguati per esempio la costruzione e l’uso di concettualizzazioni condivise, cioè ontologie, come si chiamano pomposamente. Beh, la costruzione e l’uso di modelli concettuali condivisi è un problema socio-tecnico, non è un problema tecnologico. Noi abbiamo i formalismi, si chiama logica descrittiva, abbiamo gli standard, si chiama OWL, ontology web language, abbiamo gli end-point SPARQL, gratis et amore dei, eccetera.. Abbiamo tutto dal punto di vista tecnico. Cosa ci manca? Mancano quei processi organizzativi sociali di partecipazione e di costruzione condivisa e di uso. Anche di educazione all’uso.. La parte umana. Manchiamo noi in questo scenario.

MM: Apunto. Il tema con cui volevamo misurarci, che è un tema enorme, è pensare a cosa non è misurabile, cosa la macchina non può fare. Cosa deve fare l’essere umano perchè la macchina non lo può fare?

Oggi si pensa che le macchine possono fare tutto, ma non è così. Anzi, più la tecnologia diventa quasi onnipotente, quasi illimitata dal punto di vista della mole di dati che può macinare, delle possibilità possibilità delle azioni che può svolgere, e più ci rendiamo conto che qualcosa manca, che è questo aspetto, se vogliamo, umano. Perché la macchina dovrebbe dovrebbe fare queste cose? Con ill Covid sono moltiplicate le interazioni mediate da strumenti tecnologici e questo di certo non sono fatto anche capire quanto queste mediazioni, attraverso il video, l’audio o la scrittura, sono molto efficaci ma ci ritroviamo depauperati di tanto e quindi, che cos’è quel tanto che non riesce a passare attraverso la registrazione, la datificazione, attraverso la traduzione in conoscenza che è registrabile, accumulabile, trasmissibile in modo digitale? C’è un’eccedenza, come dire, che ci manca.

GV: E’ la situazione. Essere collocati in un punto dello spazio del tempo in connessione empatica con le persone che ci stanno attorno. Dove ci scambiamo tanta informazione che non è verbale, non è logica. C’è tutta una dimensione di comunicazione che non è espressa, non emerge al livello del Logos, sta in codici non “codificati” scusate il calembour.. E quella dimensione lì viene fatta fuori. Dobbiamo convivere, dobbiamo trovare un nuovo modo. Dobbiamo capire cosa é logos e cosa non è il logos. Il dar senso a una parola è comunque sempre un atto interpretativo individuale ed è anche inscrutabile, se vogliamo. Questo lo disse anche Quine negli anni ’50, se vogliamo parlare di filosofia. La inscrutability: non sai che cacchio vuole dire “gavagai”, tu ti sei immaginato che l’aborigeno volesse dire un certo animale, no. Magari lui voleva dire “la presenza”, cioè vuole alludere ad un evento, voleva alludere ad una parte, ho paura di quell’animale. Cioè c’è una inscrutabilità del modo in cui noi intendiamo e viviamo dentro la dimensione linguistica. E quella inscrutabilità non è un difetto del linguaggio, o dell’umanità, fa parte del linguaggio, fa parte del della nostra vita sociale e ne farà sempre parte. L’arroganza tecnologica del ridurre tutto al logos é, appunto, un’aberrazione.

MM: Questo cambia anche molto il nostro modo di comunicare. Cioè, nel momento in cui la maggior parte della comunicazione viene formalizzata secondo degli schemi che sono più utili alla trasmissione, immagazzinamento e analisi automatica del contenuto, più che a noi che comunichiamo. Pensavo ad esempio al fatto che magari, quando scriviamo che ne so, un post, un Tweet.. ci mettiamo gli hashtag. Non li mettiamo a nostro uso, li mettiamo a uso della macchina, perché alla macchina gli servono gli hashtag per poter capire che quello che tu stai scrivendo riguarda quegli argomenti. Noi tagghiamo, cioè facciamo un lavoro che altrimenti dovrebbe fare il Data Scientist facendosi un mazzo così, perché diventa di moda mettere i tag. Così io ti facilito il fatto che la macchina lì può trovare e, in un certo senso, comincio a pensare come la macchina ne ha bisogno, cioè io gli produco già direttamente la mia conoscenza nel formato più utile al modo in cui verrà elaborata dagli algoritmi. In questo modo tendo a semplificare molto e quindi avere una comunicazione semplificata, polarizzata. Tendo a pormi nei confronti dell’altro essere umano in un certo modo, che è quello più utile a far sì che un algoritmo capisca la relazione tra me e quell’essere umano. Quindi tu sei un bastardo, un nemico, oppure sei un grande: pollicione! Vedo a scuola i nostri ragazzi , soprattutto i più piccoli, che non possono non esprimere apprezzamento per qualsiasi cosa succeda. Non possono non esprimerlo, é un’esigenza. C’è una trasformazione del dispositivo sociale che viene dall’uso continuo del dispositivo tecnologico e di cui però ci stiamo rendendo conto.

GV: Certo. Certamente da dal momento in cui è stata inventata la scrittura che ha seguito di diversi decine di millenni, probabilmente, i primi usi del parlato, dal momento in cui i Fenici hanno inventato la scrittura, da quando Gutenberg ha inventato la stampa a caratteri mobili, adesso siamo entrati in una dimensione diversa, nuova: c’è stato un nuovo step. L’umanità si sta posizionando, sta acquisendo nuovi modi di comunicare e questo è, in qualche modo, naturale. Cioè non bisogna entrare nell’ottica di regredire ad uno stato precedente, perché non è possibile. Bisogna capire come in questo cambiamento, in questa evoluzione, possiamo stare bene. Un modo per capire come stare bene è, secondo me, demistificare la tecnologia. Cioé , non dire più: “la macchina capisce il linguaggio naturale”. Fino a qualche tempo fa le grandi aziende IT andavano a dire in giro: “i nostri sistemi di cognitive computing, di AI, capiscono come un essere umano..” Allora, questo è materialmente falso.

La più grande macchina linguistica attuale,GPT-3, Generative Pretrained Transformer di OpenAI, Microsoft, che è in grado di generare testi veramente verosimili, cioè che sembrano scritti veramente da un essere umano, tuttavia non capisce assolutamente quello che sta dicendo. Di recente parecchia gente se n’è accorta. Insomma, si sa, ormai è una conoscenza comune. Avere un rapporto sano con la tecnologia vuol dire, secondo me, oggi, anche sapere quali sono i suoi limiti, quindi per esempio abbandonare gli approcci soluzionistici per cui c’è un problema, la tecnologia lo risolve. No, c’è un problema, la società lo risolve forse anche adeguatamente con coscienza alcuni strumenti tecnologici, coscienti dei limiti di questi strumenti. Questo è lo sforzo adattativo che noi oggi siamo chiamati a fare.

MM: Quindi una visione anche più matura della tecnologia. Che superi il pensiero magico sui computer e sulla tecnologia.