Sites Inria

Le 13.11.2012

Les systèmes de production de données [pistes 1 à 4]

Quatre pistes/questions sur les systèmes de production de données pour éclairer et lancer le dossier <Data, le nouvel or noir ?>


by calwest

 {PISTE 1} 
COMMENT GÉRER L'EXPLOSIONS DE DONNÉES DEVENUES NUMÉRIQUES ?


>Data flux

15 millions de SMS par minute, 140 millions de tweets par jour… À chaque évolution technologique, le nombre d'utilisateurs et de données augmente : un smartphone émet dix fois plus de données qu'un simple téléphone mobile. 1,8 zettabytes d’informations numériques est produit aujourd’hui. On prévoit la production de 7,8 zettabitytes en 2015, soit le contenu de la bibliothèque du Congrès aux États-Unis multiplié par 18 millions !

90% des données du monde ont été créées ces deux dernières années.
Stephen Gold, IBM

90 % des données utilisées dans 2 ans seront différentes de celles collectées aujourd’hui.

Le nombre de données produites va-t-il continuer à augmenter ? Quelles sont les limites de la production de données ? Est-ce que trop de données vont tuer les données ?

 

>Data déluge

Les Google glass permettent de prendre des photos ou filmer dans n’importe quelles situations et à tous moments. Ces informations numériques sont transmises au réseau.

Si tout le monde produit un flux permanent de données, va-t-on vers des tsunamis de données ? Quels sont les risques, dangers liés à une surproduction ?

 

>Les objets se donnent

Chaque objet génère son flux de données, de la chambre d’hôtel que vous occupez
aux chaussures que vous portez. Notre environnement est de plus en plus
constitué d’objets produisant des données.
Ces données sont un nouveau média sur lequel l’économie se construit.

Kelvin Kelly, fondateur du magazine Wired

Demain, le compteur électrique fournira au central des informations sur la consommation toutes les quinze minutes au lieu d’aujourd’hui une fois par an, lors du relevé du compteur.

Les objets inanimés acquerront-ils une âme en transmettant des données ? Quels sont les nouveaux usages liés à l’émission de données par des objets ?

 

>Étant données

Notre surf, notre historique, le temps passé sur une page, la photographie géolocalisée de notre dessert, les échanges sur le réseau… Tout est donnée.

Quelles activités humaines ne sont pas encore productrices de données numériques, mais pourront demain le devenir ?

 

>Tous producteurs

Dans un futur proche, toute personne vivante écrira une chanson, un livre,
réalisera une vidéo, tiendra un blog et codera un programme. Cette idée est
moins choquante que de se dire, il y a 150 ans, qu’un jour tout un chacun
écrira une lettre ou prendra une photographie ? La question est que va-t-il
se passer quand tout le monde créera plus de données qu’il n’en consomme.
Qui sera le consommateur ?

Kevin Kelly, rédacteur en chef Wired.

Va-t-on vers un monde où l’on produit beaucoup plus que l’on consomme ? Qu’est-ce que cela risque de changer ?

>Roule la donnée

La Google car utilise une quantité phénoménale de données pour se déplacer. Elle se sert tant des cartes et des images de Google Street View pour calculer l’emplacement des trottoirs, bordures et panneaux que des données de trafic.

Quels sont les nouveaux objets et services qui seront des produits de données ?

 

 {PISTE 2} 
DEMAIN VA-T-ON EXTRAIRE LES DONNÉES DU CERVEAU ?

 

>À visage découvert

La startup Face.com acquise récemment par Facebook fournit des informations sur un visage. Elle peut indiquer l’âge de la personne, fournir des informations sur ses émotions et souvent nommer la personne en puisant dans des banques d’images où les noms sont renseignés.

Nos visages vont-ils prendre la parole à notre place et nous contraindre au silence? Quels sont les nouveaux usages liés à l’identification des anonymes ?

 

>Piliers de bar

SceneTAP est une application smartphone reliée à des caméras installées dans des bars. Elle compte les personnes présentes, évalue le taux de remplissage et détermine tant le pourcentage de filles et de garçons que leurs âges moyens.

Tous nos faits et gestes vont-ils être enregistrés et analysés ? La notion de vie privée va-t-elle exploser ?

 

>Nouveaux souffles

Ashtmapolis est un capteur GPS qui se branche sur un inhalateur de Ventoline. Ce système permet de repérer les zones où les asthmatiques souffrent. Il produit des cartographies permettant aux asthmatiques de repérer les zones à éviter.

L’enregistrement de nos maux va-t-il servir à aider les autres ? L’enregistrement de données personnelles va-t-il contribuer à l’amélioration de notre santé ?

 

>Le cerveau traqué

L'activité électrique de votre cerveau peut-elle trahir vos secrets ? C'est dans ce sens que travaillent des chercheurs de l’Université d’Oxford. Ils s’appuient sur les ondes P300, des ondes qui se produisent lorsqu’on reconnaît quelque chose. Ils utilisent pour leur démonstration des casques EEG (type Emotiv, disponible dans le commerce pour 500 $), qui mesurent l'activité électrique du cerveau.

Est-ce que ce type de technologie peut se vulgariser et se traduire par une transformation de nos intentions ou sentiments en données ?

 

>Marathon man

En avril 2010, Guillaume Chelius a couru le 25e Marathon des Sables, considéré comme l’une des courses les plus éprouvantes au monde - accueillait. Ce chercheur d'Inria a couru en moyenne 42 kms par jour pendant 6 jours, à raison de 5 heures par jour. Il avait dans ses chaussures, sur ses tibias, ses cuisses, ses bras, son tronc et sa tête, une vingtaine de capteurs miniaturisés et communicants sans fil pour se synchroniser et enregistrer leurs données. L’objectif était de comprendre ce que peut vivre un sportif pendant une compétition longue et éprouvante. Un flot gigantesque de données a été recueilli : les 16 capteurs faisaient 1000 mesures à la seconde, par 3600 secondes, et pendant 35 heures soit plus de 2,5 milliards de mesures !

Quel est l’intérêt de mesurer l’activité humaine ? Quels sont les nouveaux usages envisagés ?

 

 {PISTE 3} 
COMMENT PEUT-ON MESURER ET AMÉLIORER LA QUALITE DE DONNÉES ? 

 

>Les morts ne votent plus

En avril 2009, la Croatie avait 45 000 électeurs de plus que de citoyens. Ils ont mis en ligne une base de données présentant l'ensemble des électeurs croates et ont incité tous les citoyens à fouiller la base, à la recherche d'incohérences.

Le crowdsourcing peut-il contribuer à l’amélioration des bases de données ?

 

>Erreurs d’extrapolations

Nous avons tendance à faire des extrapolations fortes sur les données faibles.
Le risque est de voir demain l’information en ligne préjuger de qui nous sommes et se tromper.
Alessandro Acquisti, professeur de technologie de l’information et
de politique publique de l’université Carnegie Mellon

Peut-on faire parler les données de manière fallacieuse ?

 

>Prévisions météo

En 1972 les services météo américains se trompaient d’environ 6 degrés lorsqu’il fallait prévoir le temps 3 jours à l’avance. Maintenant, l’erreur est juste de trois degrés. La prédiction des ouragans s’est fortement améliorée. Il y a 25 ans, les spécialistes chargés de cette tâche prédisaient avec une marge d’erreur de 560 km quel lieu pourrait être touché par l’ouragan. Aujourd’hui, la marge est 160 km. Ces progrès significatifs sont dus tant à la reconnaissance de l’incertitude que l’acceptation par les météorologistes de la non suffisance des données.

Est-ce qu’accepter la faiblesse des données est un moyen d’améliorer leur exploitation ?

 

>L’humain défaillant

Dans un rapport stratégique sur la Data Quality en 2012, on apprend que :

- 79% des organisations sont encore confrontées à un manque de visibilité sur leurs bases clients.
- Près d'un quart des entreprises estiment que leurs données clients sont potentiellement erronées.
- Les principales sources d'inexactitudes des données sont pour plus de la moitié dues à des erreurs humaines de saisie.

Peut-on faire des extrapolations fiables à partir d’une matière première de mauvaise qualité ? Comment ?

 

 {PISTE 4} 
COMMENT ORGANISER LA GESTION DE DONNÉES ?

 

>Big brother

Face au danger « big brother », il est désormais indispensable de penser
Internet autrement du point de vue technique et d’opérer un changement
majeur en privilégiant la décentralisation des données. Il faut faire disparaître
les autorités centrales qui détiennent toutes les informations sur un individu. 
Un moteur de recherche - outil centralisé et collecteur de données - pourrait s
e voir remplacé à terme par une fonction capable d’associer différents service
s pour fournir la meilleure réponse possible.
Anne-Marie Kermarrec, directrice de recherche Inria, membre de
l’équipe Asap, et responsable du projet ERC Gossple.

Quels sont les dangers liés à une trop grande centralisation des données ?

>Des données compréhensibles

Les internautes qui visitent les sites très riches en données y passent 
paradoxalement très peu de temps. Pour que ces données soient réellement
accessibles, c’est-à-dire compréhensibles, il ne suffit pas d’y donner accès,
il faut aussi les présenter de telle manière que le citoyen puisse se les approprier,
c’est-à-dire comprendre les données, les comparer à des alternatives, etc.
Jean-Daniel Fekete, responsable de l’équipe Aviz (Inria)

Que peut apporter la visualisation des données ? Quels sont les atouts de ces mises en image ?

 

>Des données européennes stockées aux États-Unis

Les systèmes comme Google permettent de savoir beaucoup de choses
sur un individu comme sur une communauté, comme les habitants d’un pays,
d’une région. Google l’a démontré dès 2003 avec son système de suivi de la grippe
au niveau mondial, qui est non seulement très précis, mais de surcroît en avance
sur les instituts de veille sanitaire. Google sait donc tout sur les populations,
leur santé, leur consommation, leurs idées politiques, etc. Google connaît
probablement mieux la France que l’Insee, ou tout au moins dispose des données
qui permettent cette capacité.
Stéphane Grumbach, chercheur à l’Inria

Où sont stockées les données ? Quels sont les impacts de cette localisation sur la vie économique ? 

Propulsé par