Publié le 15 déc 2017Lecture 13 min
Santé connectée, Big Data : amis ou ennemis ?
François DIÉVART, Clinique Villette, Dunkerque
CNCF
La santé connectée est un des éléments d’une chaîne ayant pour objectif de collecter massivement des données afin d’interagir avec elles, soit instantanément à des fins diagnostiques ou thérapeutiques, soit de façon différée, à des fins d’analyse, de création d’algorithmes prédictifs ou décisionnels, de développement d’une intelligence artificielle... Ses enjeux et modalités font qu’on ne sait si cette révolution en cours sera notre amie ou notre ennemie…
« Nous sommes au cœur d’une immense révolution. Dans quelques années à peine, nous vivrons différemment. Nos manières de nous alimenter, de nous soigner, de nous déplacer n’auront plus rien à voir avec celles d’aujourd’hui. Pourquoi ? Parce qu’au-delà de la robotique et de l’intelligence artificielle, l’internet des objets bouleverse nos vies. »
Emmanuel Macron, post-face du livre La quatrième révolution industrielle de Klaus Schwab (Dunod, 2017)
Nos sociétés en général, et la santé en particulier, sont dans une phase de transition dont on aperçoit certains tenants et aboutissants mais dont on peine à imaginer l’aspect que prendront les modifications qui se dessinent avec la numérisation et la transmission en temps réel des données. La numérisation des données — et ses développements —, appelée quatrième révolution industrielle, va probablement entraîner des changements aussi radicaux que ceux produits par les trois précédentes révolutions industrielles, celle du XVIIIe siècle marquée par la mécanisation et le développement de la machine à vapeur, celle du XIXe siècle marquée par le développement de nouvelles sources d’énergie telles que l’électricité, le gaz et le pétrole et celle du XXe siècle, marquée par le développement du nucléaire et de l’électronique. Ainsi, une majeure partie des observateurs s’accordent à prédire que la numérisation des données et les capacités de stockage et d’analyses de celles-ci sont le moteur d’une transformation qui sera probablement radicale de nos modes de pensée, de vie et de production.
Au-delà de cet abord où la donnée est pensée comme « le pétrole du XXIe siècle », la partie purement technique de cette nouveauté peut être décomposée en une chaîne comprenant :
– le recueil de la donnée, devenu possible à large échelle par sa numérisation, et ce qui est dénommé santé connectée n’est qu’un des aspects possibles de ce recueil ;
– le stockage par un hébergeur disposant des capacités adaptées et, le recueil ayant recours à de multiples voies et récoltant une moisson continue, on parle de données massives stockées ou Big Data ;
– et dernier élément de la chaîne, l’analyse des données à fin d’exploitation.
Chacune de ces étapes pose des problèmes techniques, scientifiques, éthiques, financiers et juridiques exposant à des analyses contradictoires faisant que la transition en cours de nos sociétés peut être vue, tel que l’indique le titre imposé à cette réflexion, comme une avancée amie ou comme une régression, terme mieux adapté que celui d’avancée ennemie.
Quand la santé numérique pourrait être notre amie
Le suivi médical à distance
La santé connectée offre un avantage important : elle permet de suivre à distance certaines maladies et/ou dispositifs médicaux implantés. Dans le cadre d’une des composantes de la santé connectée, dénommée télémédecine, cela permet soit d’éviter un déplacement du patient pour vérifier sa stabilité clinique et/ou le bon état du dispositif, soit d’agir par le déclenchement d’une procédure afin d’éviter une complication.
On entrevoit d’ores et déjà quelques conséquences, interrogations et implications de ce moyen : une diminution des consultations physiques (et donc potentiellement un nouveau mode d’exercice de la médecine), mais en parallèle un suivi qui pourrait être continu avec ses implications éthiques, économiques et médico-légales. Ainsi, par exemple, nous ne savons pas si ce mode de surveillance sera financièrement rentable pour la solidarité nationale ? Nous ne savons pas qui sera responsable juridiquement de l’acheminement de la donnée du patient vers le centre d’analyse : le développeur du dispositif ? l’opérateur ? Qui sera responsable du traitement de celle-ci et de la réaction à celle-ci ? Nous ne savons pas si les moyens d’action déclenchés par l’analyse des données transmises sont ou ont été validés comme réellement efficients…
Une épidémiologie transformée par les données massives
La santé numérique offre un deuxième avantage majeur : elle permet de collecter, stocker et analyser un nombre considérable de données. En cela, l’entrée dans le monde des Big Data contribue déjà à modifier complétement l’analyse épidémiologique.
Ainsi, la littérature récente est déjà riche de publications concernant l’analyse de données de plusieurs millions de dossiers. Dans l’une de ces publications, ce sont les données de 4 millions de patients qui ont pu être extraites et analysées parmi une banque de données de plus de 10 500 000 patients, afin de démontrer l’universalité d’une relation à type de courbe en J entre le poids et le pronostic. Dans une autre publication, c’est de l’analyse de données de plus de 6 millions de dossiers qu’ont pu être extraites et analysées les données concernant plus de 630 000 patients, démontrant qu’il existe aussi une courbe en J dans la relation entre le HDL-cholestérol et le pronostic. Cette nouvelle observation remet complétement en cause et souligne les limites d’une étude comme celle de Framingham (figure 1), considérée pourtant comme une référence. Framingham avait fondé le mythe et une pratique selon lesquels le HDL-cholestérol est à concevoir comme un « bon cholestérol », et ce à partir d’une série de moins de 3 000 patients ayant totalisé « seulement » 142 événements cardiaques. Les Big Data rendent caduques ce concept et les grilles d’évaluation du risque cardiovasculaire qui en sont dérivés.
Figure 1. HDL : Framinghamvs Big Data.
De cet aspect des Big Data dans le domaine de la santé, on comprend aisément que la connaissance des maladies sera améliorée et qu’il pourrait donc en être de même de l’état de santé des populations faisant ainsi de la santé numérique une amie.
Quand la santé numérique pourrait être notre ennemie
Les exemples et scénarios sont nombreux où la santé connectée peut cependant déjà être ou pourrait devenir notre ennemie. Cela va de l’intrusion dans la vie privée à la fiabilité des algorithmes prédictifs dérivés de ces données, jusqu’au ciblage commercial du patient considéré comme un consommateur comme un autre et donc comme une source de profit pour une entreprise adaptée aux nouveaux modèles.
L’intrusion dans la vie privée
La notion de vie privée en matière de santé numérique commence par la distinction entre données de santé et données de bien-être, qui est tout sauf anodine. La donnée de santé relève de la sphère privée et est protégée. Son accès ne peut être autorisé que par le contrat tacite entre le praticien et le patient ou le contrat effectif entre un patient et une tierce personne ou un tiers organisme. La donnée de santé est donc théoriquement non collectable par une application permettant son stockage et son analyse, notamment dans des pays aux législations différentes de celles des pays la protégeant.
La donnée qualifiée de bien-être est encore dans un flou juridique ce qui, en creux, permet sa collecte sans contrat effectif entre le donneur et le receveur. Alors, une application dans un téléphone mobile multifonctions qui indique au patient/consommateur, le nombre de pas qu’il fait chaque jour, permet-elle de recueillir des données de santé ou des données de bien-être ? Une société tierce a-t-elle le droit de collecter ces données et d’éventuellement les exploiter à des fins commerciales ? Et ce, même si l’application est fournie gratuitement au « patient/consommateur » ? On comprend les enjeux de ces questions lorsque l’on sait que le modèle économique sous-jacent à la gratuité des applications dites de santé ou de bien-être est souvent résumé par un aphorisme : « Quand on ne paye pas pour un produit, c’est qu’on est le produit ». C’est d’ailleurs ce que deux cochons ne comprenaient pas encore, dans une histoire métaphorique où l’un disait à l’autre : « C’est génial, on ne nous demande même pas de payer le loyer de la porcherie ! », ce à quoi l’autre répondait : « Oui, et en plus la nourriture est gratuite ! »
De façon plus concrète, au mondial de l’automobile en 2016, il a été présenté un modèle de voiture appelée CAR2CAR dont la particularité telle que décrite dans sa publicité est la suivante : « Des capteurs sont intégrés à l’habitacle (volant, siège) permettant le suivi médical des occupants (électrocardiogramme complet) afin d’accélérer la prise en charge médicale si besoin ». Sous couvert d’un progrès et d’un service potentiel, cela signifie qu’un organisme va recueillir, stocker et exploiter les électrocardiogrammes des divers passagers d’une automobile : quelle loi permet cette pratique promue comme un avantage ? Si une action rapide permet d’éviter des accidents et des décès, les passagers d’une automobile devront-ils se soumettre à ce dispositif au risque sinon, d’une augmentation de leur prime d’assurance ? S’ils s’y soumettent, qui aura accès aux données et qu’en sera-t-il fait ?...
La fiabilité des algorithmes prédictifs : l’exemple de Google Flu Trends
À la fin des années 2000, la firme Google a eu l’idée d’évaluer si l’analyse de requêtes faites sur son moteur de recherche pouvait permettre de prédire la survenue et l’ampleur d’une épidémie de grippe. L’idée était simple et prenait en compte deux types d’éléments.
D’une part, les agences de santé ont mis en place des réseaux de médecins qui font le diagnostic de la grippe en cabinet puis transmettent à un organisme central des données concernant la survenue de cas de grippe parmi leurs patients. Cela permet d’évaluer la localisation, l’ampleur et la vitesse de propagation d’une épidémie, tant à l’échelle nationale qu’internationale.
D’autre part, les personnes ayant des symptômes pouvant être en rapport avec une grippe ont tendance à aller chercher sur le moteur de recherche Google à quoi peut correspondre leurs symptômes et quel traitement appliquer. Dans ce cas, en utilisant un algorithme avec des termes particuliers (par exemple : « fièvre », « nez qui coule », « paracétamol »….) il devait être possible d’évaluer la localisation, l’ampleur et la vitesse de propagation d’une épidémie de grippe sans avoir recours à un réseau de médecins.
Google a donc effectué une analyse rétrospective de 50 millions de requêtes adaptées, et a construit un algorithme afin de corréler ses résultats avec ceux obtenus de 2004 à 2009 par le CDC (Center for disease control) d’Atlanta aux États-Unis. Et là, surprise, la prédiction était fiable : l’algorithme permettait donc de prédire la survenue de l’épidémie de grippe, mais, de plus, avec quelques jours d’avance par rapport aux prédictions du CDC. Ce résultat a été médiatisé au terme d’une publication spécifique dans la prestigieuse revue Nature ce qui a permis aux chercheurs de tendance, les fameux et parfois fumeux futurologues, d’actualiser moult articles et livres et de faire des passages remarqués sur les ondes radio, hertziennes et autres… : « Ça y est, tout change déjà, avec la numérisation la santé est révolutionnée sans avoir besoin des médecins… ».
Cependant, quelques années plus tard, alors que l’algorithme développé et appelé Google Flu Trends avait été mis à la disposition de plusieurs pays pour une utilisation et une évaluation prospective, Google annonça qu’elle mettait fin à l’utilisation de cet outil : trop d’erreurs de prédiction. Pourquoi ? Parce que très vite, en faisant des analyses prospectives et non plus rétrospectives, il est apparu que l’algorithme se trompait. Ceci a conduit à une première correction rapide en 2010, mais cette mise à jour jugée adaptée a été complétement mise en défaut en 2013, année où l’erreur d’estimation a été majeure.
L’analyse des causes de l’erreur a été faite et est encore en cours. Quelques-unes des principales causes d’erreurs sont rapportées ci-après. Ainsi, en 2013, il avait été annoncé qu’il y aurait une importante épidémie de grippe, or, si l’on annonce une importante épidémie, les utilisateurs d’un moteur de recherche ont tendance à aller rapidement chercher de l’information avec les termes pris en compte dans l’algorithme et ce, alors qu’ils n’ont aucun symptôme, d’où une surestimation.
Ensuite, il est toujours utile de rappeler que corrélation n’est pas causalité.
Ainsi, même en l’absence de grippe en cours, il peut y avoir une augmentation de l’utilisation des mots-clés dans le moteur de recherche : comment faire pour être certain qu’un mot-clé tel par exemple, « nez qui coule » corresponde à une grippe et non à un rhume ? Une solution est d’augmenter les paramètres et/ou critères pris en compte dans l’algorithme, mais dans ce cas, si l’outil devient plus spécifique (meilleure probabilité que la requête retenue corresponde à un cas de grippe) il devient en parallèle souvent moins sensible (moins bonne détection de tous les cas de grippe) et expose alors à une sous-estimation.
Ainsi, un algorithme même enrichi de millions, voire de milliards de données peut être pris en défaut. Cependant, tout indique qu’un tel échec n’est qu’un pis-aller, car, en matière de technologies, après une phase d’enthousiasme vient souvent une phase de désillusion, mais ensuite, viennent les phases d’illumination et de productivité telles que décrites dans le cycle de la hype de Gartner (figure 2). Il est donc probable que, demain, de nouveaux algorithmes mieux élaborés soient plus fiables et pleinement opérationnels.
Figure 2. Le cycle de la hype de Gartner.
L’utilisation des données
Il ne faut se faire aucune illusion, les données transmises, qu’elles soient ou non directement en rapport avec la santé, ont vocation à être collectées par des organismes publics ou privés à des fins de contrôle ou à des fins commerciales.
Ainsi, par exemple, la NSA (National Security Agency), aux États-Unis, a 4 programmes dédiés de collectes de données, 2 ont été élaborés pour les données transmises par les téléphones et 2 pour les données transmises par Internet. Ces 4 programmes de collectes de données s’appellent NUCLEON pour les données individuelles et MAINWAY pour les données massives collectées par téléphone et PRISM (programme révélé par Edward Snowden) pour les données individuelles et MARINA pour les données massives collectées par Internet. La NSA a aussi des programmes de stockage des données (e-mails, textes, adresses IP, photos, données financières, etc.) parmi lesquels PINWALE, TRAFFICTHIEF, CLOUD/ABR, DISHFIRE, FASTSCOPE, SIGINT NAVIGATOR, TRACFIN, TUNINGFORK, OCTAVE, ANCHORY, Nymrod, etc.
Par ailleurs, lorsqu’une société n’a pas d’accès direct aux données de santé, elle peut créer des algorithmes prédictifs de l’état de santé en utilisant diverses sources développées à partir de toutes les traces numérisées laissées dans les divers réseaux. C’est ainsi, par exemple, qu’une compagnie d’assurance a pu annoncer « qu’elle est parvenue à remplacer parfaitement les analyses médicales (tests sanguins, analyses d’urines) par des modèles statistiques créés à partir des données internes à l’entreprise (questionnaire médical notamment) et de données sur le client (habitudes alimentaires, loisirs, etc.) acquises auprès d’agrégateurs de données marketing ». Exemple isolé ? Non, un autre document d’entreprise annonçait récemment : « Lors de la phase d’expérimentation, 6 grandes entreprises ont transmis des données collectées de transaction (géolocalisation, consommation…) ou caractérisation (état civil, véhicules, etc.). Dix-huit prototypes ont été créés, comme la visualisation des infos nutritionnelles des achats ou leur bilan carbone, et des dizaines de concepts imaginés, comme la préconisation de souscription en fonction de leur utilisation par d’autres utilisateurs. 2015, le projet est décliné avec des expérimentations spécifiques sur la Santé et l’Énergie ».
À quelles fins ? Là encore, les documents disponibles ne laissent aucun doute : « renforcer la connaissance client », « prendre en compte un grand nombre de variables », « tirer profit d’un plus grand nombre d’individus », « détection des clients fragiles », « scores de durée de vie client », « push d’offres et/ou d’actions commerciales basées sur un score prédictif permettant d’optimiser les taux de transformation » (on comprend ici que « transformation » est un euphémisme qui signifie « vente réussie ») et enfin le triptyque de base « 1) l’assureur limite ses remboursements de santé grâce à la prévention ; 2) l’assuré est en meilleure santé et bénéfice de réductions et 3) les enseignes partenaires récupèrent des clients et du chiffre d’affaires… ».
En pratique
À l’ère de la numérisation des données, les données de santé peuvent désormais être individuellement ou massivement collectées, stockées et analysées.
Afin de permettre une collecte massive, certaines réelles données de santé sont qualifiées de données de bien-être permettant d’échapper à la réglementation afférente aux données de santé et à la vie privée.
Parfois la seule collecte des traces numériques laissées dans divers réseaux (sites internet, paiement en carte bancaire, géolocalisation, etc.) permet d’établir le statut de santé du patient/consommateur/navigateur sur la toile… Ainsi, il n’y a aucun doute sur le fait que la santé fasse partie des enjeux majeurs de la collecte massive de données.
Il n’y a aucun doute sur le fait que l’évaluation de l’état de santé d’un individu ou d’une population puisse être effectuée à partir de sources multiples et aussi variées qu’une trace d’achats de légumes ou de viande payés par carte bancaire dans un supermarché ou que l’achat d’un type d’automobile plutôt qu’un autre ou que l’analyse du nombre de pas effectués dans une journée, analyse dont le recueil des données a été effectuée par une application mobile gratuite…
La numérisation des données de santé peut être un avantage si son exploitation est faite avec le consentement du sujet ou patient et si son exploitation est éthique et scientifique. Elle peut devenir asservissement si elle n’est pas associée à une réflexion éthique, assortie d’une réglementation adaptée et rapidement évolutive.
Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.
pour voir la suite, inscrivez-vous gratuitement.
Si vous êtes déjà inscrit,
connectez vous :
Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :
Articles sur le même thème
publicité
publicité