Les outils analytics et publicitaires, quels risques pour votre vie privée ?

Comment les sociétés marketing qui vous surveillent fonctionnent et quelles options pour refuser d'être pisté

Publié par Pixel de Tracking le 10 mai 2020

Lorsque vous surfez sur le web ou sur une application mobile, vous êtes pisté par de nombreuses sociétés. Voici un (partiel) état des lieux sur les différents outils analytics et publicitaires et leurs conséquences sur votre vie privée.

Les outils analytics

Ces outils ont pour but de fournir des statistiques d'usage d'un site web ou d'une application, ils permettent par exemple de suivre :

  • Des indicateurs telles que le nombre de visiteurs, de sessions, de pages vues ou de conversions.
  • Les pages et écrans consultés.
  • Les modes d'entrée sur le site (direct, moteurs de recherches, réseaux sociaux, sites web).
  • Les caractéristiques des visiteurs : région, appareil, navigateur, taille écran, etc.

Sur le web, des outils analytics fonctionnant avec des cookies 1st party

La plupart des outils analytics compartimentent les données par client. Par exemple, votre parcours de navigation sur L'Équipe n'a aucun intérêt pour fournir des statistiques au site Lemonde. Aussi sur le web, cette séparation est techniquement enforcée par l'usage de cookies 1st party : vous êtes suivi via un pseudonyme placé sur le domaine du client (exemple : lequipe.fr), ce pseudonyme ne peut techniquement pas être lu par un autre domaine (exemple : lemonde.fr). Voici des exemples d'outils utilisant des cookies 1st party :

  • Google Analytics : l'outil analytics de Google est présent sur la plupart des sites web et de nombreuses applications. Par défaut, il fonctionne via des cookies 1st party.
  • Adobe Analytics : via le rachat d'Omniture en 2009, Adobe propose un outil analytics très utilisé par les grands comptes.
  • AT Internet : outil analytics français, encore assez populaire sur les sites média français.
  • Matomo : anciennement Piwik, outil analytics open source pouvant être auto-hébergé (comme sur ce blog).

Les cookies 1st party ont "l'avantage" d'être plus pérennes que les cookies 3rd party. Afin de protéger la vie privée de leurs utilisateurs, les navigateurs bloquent de plus en plus les cookies 3rd party (Safari, Firefox et Brave mènent la danse, Chrome est bon dernier mais a décidé de bloquer les cookies 3rd party d'ici 2 ans).

À noter que lorsque vous vous connectez à un site web, vous perdez votre anonymat et le site pourra potentiellement combiner votre parcours sur site, quel que soit l'appareil que vous utilisez, à des données CRM déjà enregistrés sur vous (votre abonnement, vos achats, etc). Sans envoyer des données nominatives, certains sites vont simplement envoyer votre identifiant client à l'outil analytics, puis exporter les données brutes de l'outil analytics vers leur outil de Business Intelligence pour analyse ultérieure.

Comment éviter ce tracking ? Vous pouvez installer un adblocker tel que uBlock Origin.

Sur le web, d'autres outils analytics fonctionnant avec des cookies 3rd party

Cependant, certains outils analytics web peuvent vous pister à travers plusieurs sites, via des cookies 3rd party : votre pseudonyme est placé sur le domaine de l'outil analytics, permettant à celui-ci d'y accéder quelque soit le site que vous consultez. Évidemment l'impact sur votre vie privée est pire : l'outil est alors capable de vous profiler via votre navigation sur chacun des sites web où il est installé. On peut citer comme exemples :

  • Google Analytics : l'outil analytics gratuit de Google est présent sur la plupart des sites web et de nombreuses applications. Par défaut sur le web, Google Analytics installe des cookies 1st party, mais propose une option opt-in pour ses clients afin d'activer des cookies 3rd party (sur le domaine doubleclick.net), en plus des cookies 1st party. Cette option permet au site web client d'activer certaines fonctionnalités publicitaires telles que le remarketing, mais aussi d'obtenir des informations agrégées sur le profil des visiteurs (données démographiques et centres d'intérêt). L'activation de cette fonctionnalité permet bien évidemment à Google d'encore mieux vous profiler.
  • Quantcast : cette société publicitaire propose un outil analytics gratuit pour les éditeurs. Cet outil permet aux éditeurs de mieux connaître leur audience, mais va surtout permettre à Quantcast d'enrichir sa base de données de profils utilisateurs.

L'outil de construction d'audience de Google Analytics, permet aux annonceurs de définir des cibles très précises pour les recibler ensuite :

Audience_Builder_Google_Analytics

Là aussi, un adblocker tel que uBlock Origin vous protègera.

Les outils analytics sur les Apps

Le degré de surveillance des outils analytics sur les Apps est supérieur. Tout d'abord, ces outils analytics accèdent à des identifiants utilisateur ayant une persistance plus grande, et accessibles à toutes les Apps : notamment l'IDFA chez Apple et l'AAID chez Google chez Google. Les utilisateurs peuvent désactiver ces identifiants mais les options sont bien cachées (et votre surveillance n'est pas terminé, d'autres identifiants "1st party" prennent alors le relais). En comparaison, les cookies 3rd party sont de plus en plus bloqués par les navigateurs et par les extensions permettant de protéger sa vie privée.

Aussi, les outils analytics dédiés aux Apps (ou ayant démarrés en proposant leurs services aux Apps) proposent des fonctionnalités pour suivre les utilisateurs individuellement, ce qui est encore peu le cas des outils analytics spécialisés sur le web (en général ces outils sont plus "vieux" et "en retard" en terme de fonctionnalités). Aussi, ces outils récupèrent souvent des données personnelles non anonymisées telles que votre nom ou votre adresse e-mail, ce qui reste rare sur les outils analytics web. Voici par exemple comment Mixpanel vend sa solution sur son site :

Mixpanel_people

Ces sociétés peuvent ainsi combiner de nombreuses informations sur vous. Certaines d'entre elles sont spécialisés dans l'Analytics et n'ont pas de raisons commerciales de combiner vos données personnelles en provenance de différentes Apps, mais d'autres sociétés fournissent également des services publicitaires et s'autorisent ainsi à combiner vos données personnelles. Voici des exemples identifiés lors de tests d'applications sur ce blog :

  • Mixpanel : pur outil analytics ayant démarré avec les Apps.
  • Amplitude : autre pur outil analytics ayant démarré avec les Apps.
  • Adjust : outil analytics pour Apps proposant également de l'attribution (savoir quelles campagnes publicitaires sont efficaces), de la prévention de fraude, de la segmentation d'audience et du retargeting.
  • Appsflyer : autre outil analytics pour Apps proposant une multitude de services telles que de l'analyse marketing, de la prévention de fraude ou de l'attribution.

Se protéger devient ici plus compliqué, les Apps ne vous laissant que très rarement le contrôle sur ces outils. Il vous faudra passer par des applis telles que DNSCloak, Adguard ou NextDNS sur iOS.

Les solutions publicitaires

La publicité étant très souvent basée sur votre comportement, ces solutions ne respectent pas votre vie privée. Selon la finalité du type de société, le risque est néanmoins différent. Via le site Ad Ops Insider (plus de détail ici), voici le schéma récapitulant les échanges entre les différents acteurs impliqués pour vous délivrer une publicité :

RTB

Étudions maintenant les différents outils impliqués, et leurs implications sur votre vie privée.

Les outils opérant pour le compte d'un éditeur ou d'un annonceur

Ces outils n'ont pas besoin de combiner vos données comportementales en provenance de plusieurs clients pour bien fonctionner. Voici les outils principaux côté éditeur (le site web sur lequel s'affiche les publicités) :

  • L'adserveur éditeur : le "chef d'orchestre", l'outil qui décide des campagnes publicitaires à afficher lorsque vous consultez un site média, et mesure leur diffusion pour le compte de l'éditeur. Il va devoir arbitrer entre les ventes directes (campagnes publicitaires vendues directement par l'éditeur, avec souvent un nombre d'affichages de publicité fixe) et les ventes indirectes (publicités que l'éditeur ne contrôle pas, mais qu'il délègue à des ad-networks et des SSPs). L'adserveur éditeur n'a pas besoin de connaître votre navigation sur le web pour fonctionner correctement, "juste" de connaître votre comportement sur le site de l'éditeur.
  • Le SSP (Supply-Side Platform) ou ad-exchange : la place de marché du programmatique, son rôle est de mettre aux enchères les opportunités publicitaires de l'éditeur. Il est connecté à de nombreux DSP (les plateformes d'achats programmatique opérés par les annonceurs) et ad-networks (intermédiaires ayant également souvent développés des plateformes d'achats programmatique). Il n'a également pas besoin de connaître votre comportement sur le web pour fonctionner correctement. À noter que souvent, l'éditeur met en compétition plusieurs SSP par un mécanisme appelé "Header Bidding".

Certaines solutions combinent à la fois un adserveur éditeur et un SSP : on y retrouve notamment Google Ad Manager (acteur dominant), AppNexus (rebaptisé Xandr depuis son rachat par AT&T), Freewheel (racheté par Comcast) ou Smart AdServer (acteur français). De nombreuses solutions proposent uniquement un SSP.

Côté annonceur, voici les outils principaux :

  • L'adserveur annonceur : l'outil en charge de diffuser la publicité et de mesurer son efficacité pour le compte de l'annonceur. Il mesure l'ensemble des campagnes de l'annonceur : achats directs et indirects (via des ad-networks et des DSPs). L'adserveur annonceur n'a pas besoin de connaître votre navigation sur le web pour fonctionner correctement, "juste" de se souvenir des différentes interactions avec les publicités de l'annonceur.
  • Le DSP (Demand-Side Platform) : la plateforme d'achats du programmatique, son rôle est d'acheter de la publicité pour le compte de l'annonceur, sur les bons sites, pour la bonne cible (les utilisateurs les plus pertinents) et au bon prix. Cet outil n'a pas besoin de connaître votre comportement sur le web pour fonctionner correctement, mais il pourra ainsi miser plus intelligemment s'il connaît votre historique avec l'annonceur. À noter que l'annonceur peut utiliser plusieurs DSPs afin de les mettre en compétition.

Certaines solutions combinent à la fois adserveur annonceur et DSP : on y retrouve toujours Google via Display & Video 360 (acteur dominant), mais également Adform. De nombreuses solutions proposent uniquement un DSP.

Éditeurs et annonceurs peuvent également utiliser des DMP (Data Management Platforms), ces outils leurs permettent de collecter vos données de navigation, de les combiner avec vos données personnelles issues d'un CRM (abonnements, achats, etc) et de les transférer si besoin vers leurs outils publicitaires. Exemples d'application :

  • Un éditeur pourra vendre une campagne publicitaire à Sony PlayStation, ciblé sur les abonnés de sa newsletter jeux vidéos. La DMP de l'éditeur collecte les abonnés à la newsletter jeux vidéos, puis transfère cette "cible" à l'adserveur de l'éditeur, ce qui lui permettra de diffuser la campagne publicitaire à la bonne cible.
  • Un site d'e-commerce souhaite exclure les personnes ayant déjà installé son application de sa campagne publicitaire vantant l'application. La DMP de l'annonceur collecte les profils des utilisateurs ayant installé l'application, puis transfère cette "cible" au DSP de l'annonceur, ce qui lui permettra d'exclure la cible de la campagne publicitaire.

Des campagnes publicitaires ciblées qui entraînent mécaniquement une fuite de vos données personnelles vers ces acteurs de l'adtech.

Les principales sociétés proposant une DMP sont des géants du marketing tels que Oracle, Salesforce ou Adobe. Ces sociétés proposent de nombreux autres outils marketing tels que des CRMs, et sont ainsi capables de couvrir la plupart des besoins de gestion de la clientèle d'un annonceur.

Le programmatique, où la fuite généralisée de vos données personnelles

Si en théorie, ces outils n'ont pas besoin de vous pister avec un seul pseudonyme sur tout le web ou sur l'ensemble des Apps pour fonctionner (mais seulement sur le périmètre de leur client, tout comme les outils analytics utilisant des cookies 1st party), c'est néanmoins ce qu'ils font (via des cookies 3rd party) et cela leur permet notamment de faire fonctionner les achats programmatiques.

Les DSPs et ad-networks qui achètent l'espace publicitaire en programmatique ont "besoin" de vous connaitre pour miser intelligemment. Sauf qu'ils n'ont pas d'accès direct à votre terminal (ils sont appelés par les SSPs, qui eux ont un accès à votre terminal). Sur les Apps, ce n'est pas un problème car les SSPs envoient votre identifiant publicitaire (IDFA chez Apple, AAID chez Google).

Sur le web, vous n'avez pas d'identifiant unique pour l'ensemble des sites que vous consultez, les SSPs doivent donc synchroniser votre identifiant auprès des DSPs connectés (ainsi par exemple, le DSP 1 qui vous reconnaît via l'identifiant "123" est au courant que vous avez l'identifiant "xyz" chez le SSP A, ce qui lui permet de vous reconnaître lorsque le SSP A lui envoie l'opportunité publicitaire). Si vous souhaitez approfondir, le mécanisme de synchronisation des cookies est très bien expliqué sur le site Ad Ops Insider dont est issu le schéma ci-dessous :

Cookie_sync

Résumons la fuite de vos données personnelles :

  • Sur les Apps, les SSPs fuitent vos données personnelles à de nombreux DSPs et ad-networks (parfois des centaines) sans synchronisation d'identifiants préalables. La fuite de vos données personnelles est entièrement cachée (elle se passe entre les serveurs des SSPs et les serveurs des DSPs), vous ne pourrez voir que la publicité du DSP qui a gagné l'enchère (mais chacun des DSPs appelés aura pu enrichir votre profil utilisateur).
  • Sur le web, les SSPs devant en amont synchroniser vos identifiants auprès des DSPs connectés, il est possible de voir passer ces "pixels de synchronisation d'identifiants", occasionnant d'ailleurs des lenteurs supplémentaires.

Ces fuites de vos données personnelles ne se résument pas aux interactions entre SSPs et DSPs, c'est une simplification, elle a aussi lieu avec d'autres acteurs de la chaîne publicitaire tels que (liste non exhaustive) :

  • Les solutions qui font de la détection de fraude (la publicité attire des mafias car c'est un marché juteux, une part importante des publicités diffusés n'est jamais vu par des humains mais simplement par des bots).
  • Les solutions de mesure de visibilité (les éditeurs peu scrupuleux aiment bien mettre des publicités en bas de page, que vous ne verrez jamais).
  • Les solutions qui vendent des données utilisateurs, par exemple les outils de partage sur les réseaux sociaux tels que ShareThis collectent vos données de navigation pour les revendre.
  • Les solutions d'attribution, qui vont mesurer chacune de vos interactions publicitaires pour évaluer quelles campagnes publicitaires sont les plus efficaces.

À ce propos, vous pouvez lire ici les éléments de la plainte de Brave contre Google et l'IAB (Interactive Advertising Bureau, le groupe de pression des entreprises de l'adtech) à propos de la violation de la RGPD par le RTB (Real-Time Bidding : publicité programmatique). La plainte a été déposé en septembre 2018, l'ICO (la CNIL anglaise) a mis l'enquête en pause pour cause de Coronavirus, il ne faut donc pas être pressé.

Voici un panorama des acteurs principaux (là encore, liste non exhaustive) impliqués dans la chaîne publicitaire :

Lumascape_Adtech

Que pouvez-vous faire ? Si vous suivez les recommandations de ces acteurs, vous pouvez installer des cookies de opt-out pour chacun d'entre eux, ce qui n'est pas très pratique. Aussi, ces acteurs ont co-construit le Transparency & Consent Framework (TCF), un protocole pour se transmettre les informations concernant votre consentement. Mais le TCF ne fonctionne pas correctement :

  • Comme on l'a déjà vu, les bandeaux de consentement sur lesquels s'appuie le TCF utilisent des Dark Patterns pour rendre le refus du pistage difficile, sans compter qu'ils ne marchent pas correctement.
  • Le TCF est un protocole de communication entre acteurs de l'adtech, rien ne les oblige ensuite à respecter le signal reçu.
  • En particulier, ne pas donner votre consentement n'empêche pas ces acteurs de collecter vos données personnelles voire de vous profiler. Certains considèrent juste qu'ils doivent désactiver la publicité personnalisée.
  • Les contrôles et donc les sanctions sont quasi inexistants, l'industrie publicitaire prétend que l'auto-régulation suffit.

Conséquences de cet écosystème ultra complexe, où tout est permis :

  • Vos données personnelles fuitent vers des centaines d'outils différents, sans réel contrôle possible.
  • Les éditeurs ne reçoivent que la moitié de l'argent dépensé par les annonceurs, les intermédiaires prenant chacun une commission.

waterfall

Étude sur la transparence du programmatique, notez que l'étude ne peut expliquer 15% de l'argent dépensé.

Les ad-networks, intermédiaires travaillant à la fois avec les éditeurs et avec les annonceurs

Les SSPs et les DSPs sont des outils sur lesquels les éditeurs et annonceurs ont la main (outils "self-service") :

  • La commission est fixée dans le contrat (entre 5% et 15% en général).
  • La configuration du SSP est à la charge de l'éditeur (prix de vente minimum, annonceurs acceptés, formats publicitaires acceptés, accords préférentiels pour certaines marques).
  • Le paramétrage des campagnes publicitaires est à la charge de l'annonceur (ou de l'agence qui opère le DSP, sous validation de l'annonceur) : choix des sites de diffusion, du ciblage, des formats publicitaires ou de la stratégie d'enchères pour atteindre l'objectif.

Les ad-networks à l'inverse ne laissent pas la main à l'annonceur ou à l'éditeur :

  • L'éditeur a un contrôle minimum via son SSP si l'ad-network achète en programmatique.
  • L'annonceur lui ne peut pas décider à l'avance des sites ou applications sur lesquels il va diffuser.
  • Il n'a souvent pas accès à un reporting détaillé de sa campagne publicitaire.
  • Il ne choisit pas lui même sa stratégie d'enchères, mais délègue les décisions à l'ad-network.
  • En contrepartie, l'effort demandé est minimal.
  • La commission de l'ad-network est souvent opaque mais monte facilement à 30% (Google AdSense) voire à 50% (Criteo).

Pourquoi alors passer par un ad-network ? Pour 2 raisons principales :

  • La campagne sera moins coûteuse à opérer (pas besoin de paramétrage complexe sur un DSP).
  • Les résultats seront souvent meilleurs (ces ad-networks vous surveillent très largement, vos données personnelles permettent d'être plus efficace).

On pourrait croire que les ad-networks sont minoritaires par rapport aux DSPs et SSPs, opérés directement par les annonceurs et les éditeurs, mais ce n'est pas le cas :

  • Sur le web, Google AdSense représente une part considérable des revenus des éditeurs.
  • Toujours sur le web, des intermédiaires tels que Criteo ont également un poids très important. Ils achètent en programmatique mais peuvent également acheter directement aux éditeurs pour éviter la commission du SSP.
  • Sur les Apps, les ad-networks de Google et Facebook sont très puissants : Google Admob et Facebook Audience Network.
  • Sur les Apps toujours, le programmatique a plus de mal à s'imposer car les formats publicitaires sont souvent customisés, et rentrent plus difficilement dans la boite de standardisation programmatique. Les ad-networks sont encore très puissants.

Pour votre vie privée, ces ad-networks sont une catastrophe car afin de gagner plus d'argent, ils doivent mieux vous profiler. Voici "leur" cercle vertueux :

  • Captation de vos données personnelles via la diffusion de publicités ciblés (ou simplement via "l'écoute" des opportunités publicitaires sur le programmatique).
  • Pour certains (Google, Facebook, Twitter, Pinterest, LinkedIn), captation supplémentaire de vos données personnelles via des services B2C incontournables (moteur de recherche, réseaux sociaux, réseau professionnel, etc).
  • Pour certains (Google, Facebook, Quantcast, etc), captation supplémentaire de vos données personnelles via des outils analytics.
  • Améliorations des algorithmes de "profiling" et de "pricing" via la masse des données personnelles récoltées, et via la mesure de la performance des campagnes publicitaires.
  • Amélioration de l'efficacité des campagnes publicitaires, les annonceurs sont prêts à dépenser plus d'argent.
  • Les éditeurs augmentent leurs revenus et sont prêts à ouvrir davantage leurs inventaires publicitaires.
  • Captation encore plus large de vos données personnelles.

À ce petit jeu, les sociétés suivantes se débrouillent très bien mais ne vous laissent quasiment aucun contrôle, leurs modèles économiques étant en contradiction avec le respect de votre vie privée :

  • Google : le géant de Mountain View sait tout de vos aspirations, ce qui profite à son ad-network qui est dominant sur le web (Google AdSense) et très bien implanté sur les Apps (Google AdMob). Votre contrôle sur cette capture de vos données personnelles est très limité : Google ne vous permet pas de refuser la collecte de vos données personnelles, seulement de refuser la publicité personnalisée et l'association de vos données personnelles à votre profil Google.
  • Facebook : le géant de Menlo Park vous connaît aussi intimement, ce qui permet à son ad-network Facebook Audience Network de très bien marcher sur les Apps. Facebook ne vous donne aucun contrôle sur sa captation de vos données personnelles.
  • Criteo : le géant de l'adtech française, leader mondial du retargeting (les publicités qui vous suivent partout, suite à la consultation d'un produit), ne vous permet pas de refuser la collecte, seulement de refuser la publicité personnalisée.

Que faire ? Un plainte de Privacy International a été déposé contre Criteo, Quantcast et Tapad en novembre 2018, la CNIL a démarré l'instruction de Criteo en mars 2020, il ne faut pas être pressé.

La seule solution pour aujourd'hui reste technique, et donc non accessible à l'ensemble des utilisateurs : l'installation d'un adblocker tel que uBlock Origin sur le web ou des applis telles que DNSCloak, Adguard ou NextDNS sur iOS.