Interview d'expert

Prof. Dr. Lutz Heuser
concernant les données

Prof. Dr. Lutz Heuser sur les données, leur utilisation et la sécurité.

Des données doivent être collectées et traitées pour toute utilisation et toute évaluation. Comment arrive-t-on à maîtriser cette quantité de données ?

Prof. Heuser : Au cours des dernières années, nous avons réussi un développement important dans le domaine de la technologie informatique (IT): l’analyse « Big Data ». Ici, nous employons cette analyse. Amoncellement et collecte des données.  Il y a toujours eu et il y aura toujours un amoncellement et une quantité énormes de données dans les entreprises. Pensez aux grandes entreprises, qui envoient leurs factures, par exemple, mensuellement.
Avec les algorithmes « Big Data », on est en mesure de traiter des données en temps réel. Avant, le traitement des données  se faisait par lots (batch). La période de calcul durait 4 semaines, ensuite la facture était envoyée. Avec la nouvelle technologie « Big Data », qui existe depuis 5 ou 6 ans environ,  on peut réduire l’ensemble du processus de traitement  de manière à ce que  – selon les problèmes qui se posent – tout puisse être calculé en moins d’une seconde ou bien, au maximum, en quelques minutes. Cette technologie cachée, qui sert à l’évaluation des données, c’est l’apprentissage automatique et l'intelligence artificielle.
Toutefois, on peut dire que dans 10 ou 15 ans, il y aura une telle quantité de données, que celles-ci ne pourront plus être calculées avec l’architecture informatique actuelle.  Autrement dit, il y aura un moment où il y aura une nouvelle architecture informatique, qui devra être complètement différente de celle que nous utilisons aujourd’hui.
Dans le secteur Smart-City, ce ne sera pas encore d’actualité pour nous. En ce moment, c’est un sujet traité dans le domaine de la recherche fondamentale, qui passe justement dans le domaine de la recherche appliquée. 
Les premiers ordinateurs de cette génération vont fonctionner un jour ou l’autre au début de la prochaine décennie. Ensuite, on verra  à quelle vitesse ces ordinateurs se développeront.

Comment réduit-on cette quantité de données à l’essentiel?

Prof. Heuser : On peut diviser le cœur de Smart City en deux catégories. Cela ne sera pas toujours comme cela – mais,
en ce moment, c’est le cas. Les gens veulent des  « predictions », donc des prévisions. Celles-ci sont une combinaison entre la situation actuelle et les données historiques, donc des expériences  passées. C’est le principe classique du « machine learning » (apprentissage automatique). Des prévisions sont dérivées de données historiques et de données actuelles pendant un certain temps. Cette méthode est utilisée pour le stationnement, la circulation, les passages des transports publics, la distribution énergétique. Un énorme bloc de données est, par exemple, réduit à une seule déclaration: « Le feu passe au vert dans 15 secondes ».
On appelle l’autre catégorie  « axée sur les évènements ». Quelque chose s’est passé et, parce que cela s’est passé, 
une autre action est déclenchée. La plupart du temps, cet évènement n’est pas un seul évènement, mais une combinaison d’évènements – donc un enchaînement d’évènements. En anglais, le terme technique pour cela, c’est « complex event processing ». Un évènement complexe résulte de nombreux évènements uniques. 
On doit pouvoir décrire de tels évènements complexes. On doit programmer une combinaison : « si…, alors … », qui,
dans la situation concernée, provoque le déclenchement d’une action. Par exemple, qu’un luminaire en cas de danger reconnu  monte l’intensité lumineuse à 100% et, en même temps, envoie un appel de détresse.

Comment ces données  seront-elles rendues « compatibles » avec les formats et les systèmes de données existants d’une ville ou d’une municipalité – ou bien est-ce qu’on est en train de construire ici un « monde parallèle »?

Prof. Heuser : C’est une question tout à fait actuelle. A cet effet, il y a les efforts concernant la plateforme urbaine de données ouverte, dans le cadre du standard DIN. Ceci était, pour ainsi dire, la première étape. Actuellement, dans une seconde étape, nous discutons sur le standard DIN, sur un complément au standard DIN 91357 – la plateforme urbaine de données ouverte. Dans ce standard, il s’agit précisément de la compatibilité des formats de données,  pour accroître la sécurité de la planification – pas seulement de la façon avec laquelle la plateforme est établie, mais aussi à quoi devraient ressembler les formats de données.
Actuellement, nous comparons cela avec  le standard  „EDIFACT“ en vigueur dans l’économie. C’est un standard international commun à toutes les branches pour le format de données électroniques dans les échanges commerciaux. EDIFACT indique, par exemple, à quoi doit ressembler une facture, une adresse ou un devis. Ce qui permet de traiter en ligne des factures et des devis  entre des machines – donc des ordinateurs.
Nous voulons discuter d’une telle idée, s’appuyant sur EDIFACT, pour des données municipales. Certains points communs existent, qui sont identiques dans toutes les villes. Ces points communs, nous voulons les mettre  dans un modèle de données commun. Il existe déjà des propositions, mais pas encore de standard.

Est-ce que cela signifie pour les municipalités des coûts supplémentaires ?

Prof. Heuser : Non. Ici, nous arrivons aux mots-clés « re-use » et « re-purpose », c’est-à-dire réutilisation et utilisation à d’autre fins des données existantes. Le fait que nous utilisions et procédions ensemble à des combinaisons de données, n’entraîne pas de coûts supplémentaires.
Une chose est certainement nécessaire: la transformation numérique est un investissement. Elle a son prix. Bien sûr,
une ville  doit supporter des coûts supplémentaires, pour effectuer la transformation numérique. Mais, en contrepartie,
quelque chose lui sera restitué, qui justifie ces coûts supplémentaires.

En matière de données, il existe certainement des thèmes, qui sont à considérer de façon très critique, par exemple la sécurité des données. Comment gérez-vous cela  et qu’est-ce-que vous recommandez à vos clients? 

Prof. Heuser : En ce qui concerne l’Allemagne, où nous avons des règles strictes, la tendance est que ce sont les « éléments sensibles » respectifs, comme par exemple une caméra, qui effectuent le traitement des données dans l’appareil lui-même.
Le spécialiste IT parle ici d’« edge computing », c’est-à-dire d’«informatique à la périphérie du réseau ». Par conséquent, l’image en soi ne sera pas transmise à partir de ces appareils, mais seulement l’analyse de l’image. Cela permet de s’assurer que la sphère privée des personnes  que l’on peut y voir, est préservée.
En ville, beaucoup de feux de signalisation sont pilotés par caméra. Les caméras ne transmettent ni  le numéro d’immatriculation, ni le type de véhicule d’une façon particulière, mais le nombre et le type de véhicules (donc : voitures, camions, autocars). S’il faut transmettre une image, ceci ci se fait sous forme pixellisée. Cela assure la sécurité des éléments et garantit  le respect du règlement de base en matière de protection des données.  Dès lors, on travaille avec des données à caractère non personnel.
La situation se présente différemment, lorsqu’il s’agit de tâches de puissance publique. Pour cette raison, actuellement, des infrastructures de données entre police et tierces personnes ne peuvent pas être utilisées. La police a l’autorisation légale et la tâche souveraine d’identifier des personnes sur images, par exemple dans les aéroports ou dans les gares. Cela n’a rien à voir avec le règlement de base en matière de protection des données. Et on ne doit pas mélanger ces données municipales avec un bloc de données.
Si on masque les tâches souveraines, alors on peut utiliser les données dans le respect  du règlement de base en matière de protection des données. C’est ce qui est fait dans ces plateformes urbaines de données.  Dans nos plateformes, nous ne traitons pas de données à caractère personnel, mais  seulement des données, qu'il est impossible de relier à un individu spécifique.
Cela concerne même des données Wi-Fi, que nous recevons des routeurs. Les routeurs filtrent ces données, car ces informations ne sont pas autorisées à quitter le routeur. Pour cette réutilisation – suivant le principe appelé « re-use and re-purpose » (réutilisation et utilisation à d’autre fins) – ce que nous apprenons seulement c’est : là, il y avait une personne et cette personne était là durant cette période. Nous n’apprenons pas,  qui était cette personne exactement. Cela est toujours réglé au niveau des appareils eux-mêmes. Dans ce contexte, et là je me répète volontiers, les données avec lesquelles nous travaillons, sont couvertes par le  règlement de base en matière de protection des données.
Du point de vue ingérence dans des infrastructures critiques, on doit régler cela au moyen de  l’architecture informatique. Nous avons décrit cela dans le standard DIN. En tant qu’entreprise, nous plaçons un « gateway-server » ( serveur passerelle applicative ) derrière le firewall ( pare-feu ), qui  nous sert à aller chercher les données. De cette façon, le système proprement dit n’est pas directement connecté à internet et, en procédant ainsi, cela ne pose aucun problème à nos clients ( des services techniques municipaux et des gestionnaires d’infrastructure, par exemple ).
Ce qui veut dire que la sécurité des données concernant la gestion des systèmes est réglée au moyen de « gateways » ( passerelles d’application ) et la sécurité des données à caractère personnel, elle, est réglée  au moyen du traitement des données dans les appareils sur place,  via le « edge computing » (l’informatique à la périphérie du réseau).
Dans le cas où la plateforme est piratée, tous les services sont concernés. Là, il faut mettre en œuvre les critères habituels de sécurité des données,  qui doivent toujours être garantis,  lorsqu’on exploite un service comme le nôtre sur internet. Pour cela, nous avons recours  aux services de Cloud de Microsoft ou de SAP, qui mettent ces mécanismes à disposition  dans le cadre de l’infrastructure Cloud et dont les standards sont très élevés.
De cette manière, nous avons les trois éléments les plus importants : accès sécurisé des données, anonymisation ( là où elle est nécessaire) et utilisation de l’infrastructure de sécurité IT de grands fournisseurs de Cloud.

Existe-t-il dans ce domaine des standards ou bien est-il planifié d’en établir ?

Prof. Heuser : À côté du standard DIN 91357 déjà évoqué, il y a aussi le DIN 91347. Ce dernier se rapporte au « imHLa » : c’est l’éclairage public au sens du hub (concentrateur) numérique. Le premier standard DIN 91357 sont les plateformes urbaines de données ouvertes.
Actuellement, on est en train de développer le DIN 91367. Il s’agit en l’occurrence de données mobiles. C’est-à-dire quelles données de mobilité est-ce qu’une ville devrait mettre à disposition, pour permettre ces nouvelles applications en temps réel. Et le DIN 91377 est d’ores et déjà réservé  pour le standard commun de données, dont nous avons également déjà parlé.
Il y a toute une série de standards, qui sont basés les uns sur les autres et qui abordent cette thématique. Cependant, il n’existe pas de standard Smart-City, ce serait beaucoup trop complexe. On divise l’ensemble du sujet en unités plus petites, pour mieux les traiter.