Sites Inria

Le 24.01.2017
Par :
Erwan Seznec - Citizen Press

Élections : Big Data en campagne

L'analyse du langage et le traitement automatisé de grandes quantités de données sont en passe de changer les campagnes électorales aussi profondément que l'avait fait la télévision dans les années 60. Venu des États-Unis, le mouvement gagne la France. La politique 2.0 est en marche.
Les raisons de la victoire d'un candidat à une élection sont toujours faciles à comprendre... une fois le résultat connu. En 2012, les commentateurs ont ainsi attribué la réélection de Barack Obama à l'utilisation par son équipe du système de gestion de contenus (Content Management System) "Nation Builder". Ce dernier cumule quatre fonctions : site web, gestion des dons, animation de communautés et communication.

Il croise les données publiques (recensement, impôts, résultats des précédentes élections, etc.) avec des renseignements compilés par les militants sur le terrain. Il y ajoute les informations issues des réseaux sociaux et l'analyse de dizaines de milliers de verbatims, censée dégager des thèmes porteurs. Le tout est synthétisé sous une forme opérationnelle : visiter tel foyer, dans tel quartier, en développant tel argumentaire. Depuis la déroute d'Hillary Clinton à la présidentielle, il est évident que Nation Builder n'est pas l'arme absolue. L'équipe démocrate a utilisé le même outil qu'en 2012, sans l'emporter. De là à parler de déroute du Big Data, il y a un pas. La campagne Clinton est loin d'être un désastre1. Par ailleurs, Donald Trump, lui aussi, a consacré des millions de dollars au Big Data, faisant appel à la société Cambridge Analytica.

 

2017, l'analyse de données omniprésente en France

En France, le Big Data est omniprésent dans les campagnes en cours pour la présidentielle et les législatives. Les équipes d'Emmanuel Macron s'appuient sur la start-up Liegey-Muller-Pons. « Notre outil divise la France en 60 000 carrés d'un millier de personnes, résume Arthur Muller, l'un des fondateurs. Pour chacun, nous croisons une centaine de données : classe sociale, niveau d'études… La sociologie pèse sur les scrutins, mais elle est tempérée par des facteurs historiques. Les élections passées éclairent les élections à venir. La partie se joue souvent sur un électorat volatil, hésitant et abstentionniste. Le logiciel que nous proposons permet de les identifier, pour aller ensuite les rencontrer en porte à porte. »

Le Big Data n'enterre pas la politique à l'ancienne. Il la complète.

« Les partis ont de moins en moins de militants stables, ajoute Renaut Prouveur, fondateur et PDG de Spallian, La plupart ne feront qu'une campagne. On ne peut plus se contenter de leur donner des affiches et un pot de colle. »

Créée en 1998, Spallian travaille pour les collectivités. La société leur propose des cartographies, par exemple celle de la délinquance locale, en croisant les données de la police avec celle des bailleurs sociaux ou des associations de commerçants, afin d'optimiser les politiques de sécurité. À la demande des élus, Spallian a décliné ses outils pour les campagnes électorales. Nathalie Kosciusko-Morizet a fait appel à l'entreprise à l'occasion des municipales à Paris, en 2014. À partir des listes électorales, des résultats des précédents scrutins, des recensements, l'objectif était de repérer les abstentionnistes. Parallèlement, les militants utilisaient une solution appelée Memento, pour compiler les données collectées auprès des citoyens. Le tout, dans le respect des recommandations de la Commission nationale informatique et libertés (Cnil), ce qui ne va pas toujours de soi. Renaud Prouveur relève :

Certaines offres de Big Data en politique sont de simples déclinaisons de solutions américaines.

Dans ce cas, les données partent sur un serveur américain et seront peut-être revendues plus tard. Spallian, de son côté, a développé ses propres solutions, afin de donner des garanties aux élus et aux collectivités. La petite société DigitaleBoxe stocke elle aussi ses données en France. Créée par Vincent Moncenis, elle propose aux candidats aux scrutins locaux  d'animer des communautés de manière fine. Objectif : cibler les messages en fonction des centres d’intérêt des électeurs. « Il faut savoir à qui on parle, insiste Vincent Moncenis. Charles Pasqua s'efforçait d'avoir une fiche sur chaque militant du RPR. C'était du Big Data avant l'heure. »

 

Imprévu ou imprévisible ?

Avec tous ces outils déjà opérationnels, comment expliquer des surprises politiques massives comme le Brexit, la victoire de Donald Trump ou le succès de François Fillon à la primaire de la droite, alors que les sondages le donnaient troisième pratiquement jusqu'au premier tour? « Dans l'échantillon de 2000 Français suivis par l'institut Harris sur le long terme, nous avions vu une remontée des citations concernant François Fillon la dernière semaine », tempère François-Régis Chaumartin, PDG de la société Proxem. Spécialiste de l'analyse sémantique, Proxem travaille principalement pour des grandes entreprises et accessoirement en politique. Deux univers, mais une problématique commune. Il s'agit de traiter des masses considérables de verbatim issus d'enquêtes clients, d'entretiens qualitatifs, de tweets, etc., afin d'en dégager des tendances et de faire des prévisions. François-Régis Chaumartin reprend :

Si repérer des grandes tendances à partir de mots-clés n'est pas très difficile, le prédictif est un tout autre défi.

« En grande distribution, nous y arrivons plutôt correctement sur les fonds de rayon mais très difficilement sur les produits culturels, tous différenciés. » Or, les candidats à une élection sont en général radicalement différenciés !

 

L'analyse sémantique contre l'intox en ligne

Le fondateur de Proxem insiste sur un autre phénomène : l'intox virtuelle par l'intermédiaire de faux profils. « Le conformisme joue un rôle important dans les choix politiques », rappelle Arnaud Muller. Une manière de convaincre des indécis de voter pour un candidat serait tout simplement de multiplier les messages de faux sympathisants en ligne. Il n'est même plus nécessaire de recruter des petites mains offshore car « il existe des techniques de génération de texte avec des variantes légères », précise François-Régis Chaumartin. Ioana Manolescu, directeur de recherche chez Inria, complète :

 

Il ne fait aucun doute que beaucoup des "sympathisants" qui suivaient Donald Trump étaient des robots.

« Il y a de la manipulation sur Twitter. Les réseaux sociaux reflètent les "vraies" préoccupations citoyennes seulement dans la mesure où ce sont de vraies personnes qui s'expriment. » Peut-on détecter les supercheries ? Pas à 100%, mais les méthodes s'améliorent. Aujourd'hui, poursuit la chercheuse, « les algorithmes qui détectent les spams sont très performants. Ce n'est plus un challenge technique. » L'étape suivante est « d'élaborer des  graphiques d'interactions sociales : qui répond à qui, qui reprend tel hashtag et pourquoi. » Cela permettrait de repérer les informations qui circulent en boucle, alors que leur base factuelle est inexistante. L'idée est d'automatiser en grande partie le fact checking pour limiter la portée des opérations d'intox. Avec cette réserve que « les politiques savent de mieux en mieux esquiver le fact checking en procédant par allusions et non par affirmations ! », précise Ioana Manolescu.

Les travaux auxquels contribue Inria dans le domaine de l'informatique sémantique vont toutefois bien au delà de la politique. Le fact checking et le Big Data sont susceptibles, en définitive, de changer profondément la physionomie de nos moteurs de recherche, en dépassant le stade de la recherche par mot clé.

L'équipe Wimmics (commune à Inria et au I3S UNS / CNRS) travaille ainsi au volet francophone du projet international DBpedia. ll vise à indexer des contenus (ceux de Wikipedia, en l'occurrence) sous une forme facilement exploitable en graphique, cartographie, chronologie, synthèse automatique, etc. L'onglet "musée du Louvre" de DBpedia renvoie par exemple vers des centaines de fiches d'œuvres exposées dans le musée, mais aussi vers la page de la Cour des comptes (qui s'est penchée sur la Réunion des musées nationaux) ou vers celle du jardin des Tuileries. L'ensemble préfigure ce que seront les moteurs de recherche de l'avenir. Ils devraient répondre à des requêtes complexes, du type « entre quels musées sont réparties les œuvres du Caravage ? » On peut imaginer automatiser des requêtes très complexes, qui demandent aujourd'hui des semaines de travail. Cartographier les dépenses de santé de l'assurance maladie en 3D avec leur évolution dans le temps sur une décennie, par exemple, pour évaluer le sérieux des propositions d'économie d'une batterie de candidats en campagne... Difficile de savoir ce que le Big Data fera de la politique. Mais une chose est sûre, il ne va pas la simplifier. 

 

1 Hillary Clinton a récolté deux millions de voix de plus que son adversaire. Dans le système américain, des "grands électeurs", attribués à chaque Etat, élisent le président. Une victoire en Floride ou dans le Wisconsin, même par une poignée de voix d'avance, rapporte tous les grands électeurs concernés.

 

Quelle vérité sur les réseaux sociaux ?

Patron de Facebook, Marck Zuckerberg est sorti de sa réserve début novembre, pour rejeter « l'idée plutôt folle » (pretty crazy idea) que le réseau social aurait joué un rôle déterminant dans la victoire de Donald Trump, en véhiculant rumeurs et contre-vérités.

Les études menées par l'American press institute confirment sans surprise que les Américains, et en particulier les 18-34 ans, s'informent beaucoup par les réseaux sociaux. Le Pew research center, de son côté, avait publié en 2014 une étude sur la bipolarisation croissante de la vie publique américaine, en partie attribuable à ces mêmes réseaux. Loin de nous ouvrir à un large éventail de points de vue, ils nous enfermeraient dans une « chambre d'écho », avec des internautes partageant nos goûts et nos aversions.

En d'autres termes, Facebook est porteur d'informations inexactes seulement dans la mesure où des internautes les répercutent à leurs cercles d'amis. Ce n'est néanmoins pas une fatalité. Les internautes pourraient même être plus ouverts que prévus à des points de vue différents des leurs. C'est du moins la conclusion à laquelle est arrivée une équipe de chercheurs associés au Yahoo Labs dans des travaux publiés en 2013. Ils ont développé un outil qui suggère à des internautes de prendre connaissance de tweets, exprimant des idées qu'eux-même rejettent. Les résultats sont encourageants. Les internautes exposés à des visions alternatives infléchissent parfois leurs points de vue. Le thème choisi pour l'expérimentation était pourtant très clivant. Il s'agissait de la légalisation de l'avortement au Chili, objet d'une vive controverse à l'époque dans ce pays.

 

 

Crédits et légendes photos : CC0 Public Domain / Pixabay ; Louis Creative Workshop © ; CC0 Public Domain / Pixabay

Propulsé par