Le big data ne cesse de faire les gros titres, mais qu'est-ce que c'est exactement, et pourquoi est-ce à la fois un cadeau et un obstacle potentiel à une mesure précise de l'audience ? Nous examinons les avantages, les inconvénients et les moyens de les faire fonctionner.
Qu'est-ce que le big data ?
Dans le monde des médias linéaires, les big data font généralement référence à deux types de flux de données produits par les systèmes mêmes qui fournissent des programmes aux utilisateurs finaux : Les données de retour (RPD) provenant des décodeurs câble ou satellite (comme Dish ou DirecTV), et la reconnaissance automatique de contenu (ACR) provenant des téléviseurs intelligents connectés à l'internet (comme Samsung ou Vizio).
Données de l'ACR
Plutôt que d'enregistrer les changements de chaîne, la technologie ACR surveille les images sur l'écran de télévision. Les images agissent comme des empreintes digitales, qui sont comparées à une vaste bibliothèque de référence afin d'identifier le programme ou la publicité en question. Les images sont horodatées, ce qui permet de savoir à quel moment la lecture a lieu.
Données du SPR
Il enregistre la chaîne sur laquelle le décodeur est réglé et l'heure à laquelle les changements de chaîne ont lieu. Ces données peuvent être mises en relation avec une grille de programmes télévisés pour déterminer quel programme est diffusé à cette heure précise, et avec des données provenant des serveurs publicitaires du fournisseur ou de ses partenaires pour déterminer à quelle publicité le foyer est exposé.
Dans les deux cas, les utilisateurs finaux autorisent la collecte de données sur leurs appareils. La coopération est relativement importante, car la collecte de données permet non seulement de réaliser des mesures, mais aussi d'obtenir des fonctionnalités très recherchées, telles que les préférences de l'utilisateur et les recommandations de contenu. Un ensemble de données RPD ou ACR peut couvrir plus de 30 millions d'appareils.
Pourquoi les big data sont-elles si importantes ?
Il fut un temps où les gens n'avaient le choix qu'entre une poignée de chaînes. Un taux d'audience1 supérieur à 60 (comme la finale de M*A*S*H en 1983) ou même à 40 (comme la finale de Seinfeld en 1998) est insondable pour une émission scénarisée aujourd'hui. Nous vivons dans un monde beaucoup plus fragmenté, avec une très longue liste d'options de programmation.
C'est une bonne chose pour les téléspectateurs, mais cela complique les choses pour les études basées sur des panels : Dans un panel national de 101 000 personnes, une émission de télévision avec une note de 0,2 sera vue par 80 ménages, et peut-être seulement un dans la zone métropolitaine d'Atlanta ou de Dallas. Avec des dizaines de millions d'appareils mesurés, le big data permet aux sociétés d'études de rendre compte de l'utilisation de la télévision à un niveau beaucoup plus granulaire, ce qui permet de couvrir beaucoup plus de programmes avec des audiences réduites et souvent diverses. Mais en soi, le big data n'a jamais été conçu pour être utilisé à des fins de mesure d'audience.
Défi n° 1 : les grandes données ne sont pas représentatives
Pour effectuer des transactions en toute confiance, les acheteurs et les vendeurs de médias ont besoin d'une solution de mesure qui reflète la population dans toute sa diversité : Tous les groupes d'âge, races, ethnies et autres caractéristiques démographiques et comportementales clés doivent être présents et proportionnels dans les données sous-jacentes.
Mais la taille ne garantit pas la représentativité. En analysant le nombre de personnes installées dans le panel TV national de Nielsen, nous avons constaté que les foyers avec SPR sont disproportionnellement plus âgés et moins diversifiés sur le plan racial que la population générale. Les foyers hispaniques, par exemple, sont sous-représentés d'environ 30 % et les chefs de famille âgés de moins de 25 ans sont presque totalement absents des ensembles de données de la SPR. D'autre part, les ensembles de données de l'ECA sont plus jeunes que la population générale et comptent également plus de membres du ménage. L'utilisation de la pondération statistique dans les big data peut masquer le problème, mais elle ne peut pas compenser les comportements de visionnage uniques et manquants des publics sous-représentés.
Pour aggraver les choses, une solution de mesure reposant exclusivement sur les données RPD et ACR ne tiendrait pas compte des ménages qui utilisent la télévision hertzienne2 et la diffusion en continu, qui représentent une part croissante du gâteau.
Défi n°2 : Les données volumineuses peuvent ne pas saisir l'ensemble du comportement des téléspectateurs
Même s'ils incluaient des ménages représentatifs, les ensembles de données de la SPR et de l'ACR ne tiennent pas compte de l'écoute à partir de chaque décodeur du ménage ou des autres téléviseurs de la maison qui ne sont pas des téléviseurs intelligents. Ces téléviseurs supplémentaires peuvent diffuser des programmes différents pour différents membres de la famille (comme des émissions culinaires dans la cuisine, ou des programmes pour enfants dans la salle de jeux), de sorte que non seulement les ménages big data ne sont pas représentatifs de la population, mais les big data elles-mêmes ne sont pas représentatives de toutes les émissions qui peuvent être regardées dans ces foyers.
Un problème frustrant pour les sociétés d'études qui s'appuient sur la RPD est que le décodeur reste souvent allumé lorsque le téléviseur connecté est éteint. Cette syntonisation "fantôme" peut exagérer l'audience réelle de 145 % à 260 %, selon le fournisseur. Il existe des modèles qui peuvent être mis en œuvre pour compenser ce phénomène, mais sans point de référence - comme un panel informé de l'écoute réelle - il peut être difficile de développer les bonnes heuristiques.
L'ACR n'est pas non plus à l'abri des problèmes de qualité des données. Certaines applications de diffusion en continu de téléviseurs intelligents empêchent l'ACR de capturer le contenu à l'écran lorsque l'application est en cours d'utilisation. On peut avoir l'impression que le téléviseur est éteint alors qu'en fait le contenu a été bloqué par une application. De plus, la plupart des fournisseurs ne surveillent qu'une petite partie de tous les programmes disponibles. Dans une analyse récente, nous avons constaté que les fournisseurs d'ECA ne contrôlent actuellement que 31 % de toutes les stations disponibles, et que 23 % des minutes enregistrées proviennent encore de stations qui ne sont pas contrôlées. En l'absence d'empreintes digitales de référence auxquelles se comparer, l'écoute n'est pas signalée.
Défi n° 3 : Les données démographiques des téléspectateurs sont absentes des Big Data
Les fournisseurs de RPD et d'ACR recueillent des données de réglage à partir de millions d'appareils, mais ils ne savent pas qui regarde, ce qui est pourtant ce que les annonceurs demandent en fin de compte.
Une façon de pallier cette lacune est de faire équipe avec des fournisseurs de données démographiques tiers. Ces sociétés tiennent un registre de la composition démographique de chaque foyer du pays, et une société de recherche peut tenter de modéliser qui regarde quoi simplement à partir de la somme totale des données de syntonisation dans un foyer donné et de la composition démographique de ce foyer.
Un programme pour enfants ? Cela doit provenir d'un enfant de la maison. Un match de catch ? Il doit s'agir d'un téléspectateur masculin. Sans point de référence réel pour aider l'algorithme d'apprentissage automatique, vous pouvez facilement voir où ce type de modélisation peut échouer. Sans surprise, la fiabilité diminue progressivement avec la taille du foyer, ce qui finit par nuire à l'exactitude des données pour les familles nombreuses, comme celles qui ont des enfants, les personnes non blanches et les jeunes téléspectateurs.
La valeur persistante des données de panel
Pour les marques et les entreprises médiatiques à la recherche d'une solution de mesure d'audience stable et fiable, les défis décrits ci-dessus sont incontournables. Les données de panel sont essentielles pour surmonter ces limites.
Chez Nielsen, lorsque nous analysons les données RPD ou ACR, nous sommes en mesure d'identifier les foyers et les appareils qui font partie de nos panels, et de comparer les données de réglage dans ces foyers au comportement de visionnage capturé par nos compteurs. En utilisant nos panels comme source de vérité dans ces foyers, nous pouvons repérer où les big data s'écartent de la vérité et développer des modèles robustes pour ajuster ces anomalies.
Par exemple, nous avons mis au point une méthodologie permettant de déterminer l'emplacement d'un appareil à l'intérieur d'une maison et de faire correspondre ses données de syntonisation à des téléspectateurs spécifiques. Un autre modèle nous aide à déterminer si un téléviseur est éteint alors que le décodeur est allumé. Un autre modèle encore permet de trier les mises à jour de l'appareil qui sont enregistrées comme des réglages supplémentaires, ainsi que les situations où un appareil renvoie plus d'un réglage en même temps.
Des personnes, pas des appareils
En fin de compte, l'étude d'audience concerne les personnes, pas les appareils.
Il ne fait aucun doute que le big data est un atout majeur dans l'arsenal du chercheur en médias. Elles ouvrent la voie à des reportages plus granulaires que jamais auparavant. Mais il est intrinsèquement défectueux, partial et, plus fondamentalement, à courte vue : Il capture des données d'accord et non des données de visionnage.
Pour réaliser son potentiel, elle doit être nettoyée, complétée, calibrée et enrichie de données démographiques pertinentes. C'est là que les données de panel entrent en jeu. L'apprentissage automatique fonctionne mieux avec des données d'entraînement et de validation solides, et il n'y a pas de meilleures données d'entraînement dans l'industrie que les données de panel représentatives au niveau national qui sont au cœur de l'activité d'étude des médias d'aujourd'hui.
L'émission Nielsen's Need to Know passe en revue les principes fondamentaux de la mesure d'audience et démystifie les sujets les plus brûlants de l'industrie des médias.
Note
1 Le taux de pénétration dans les foyers est le pourcentage de tous les foyers du pays qui sont à l'écoute d'un programme donné.
2 Programmation disponible par le biais d'un "signal" émis par une antenne. Les émissions hertziennes (OTA) ont été le premier type de télévision disponible.