Big Data macht immer wieder Schlagzeilen, aber was genau ist das eigentlich, und warum ist es sowohl ein Geschenk als auch ein potenzielles Hindernis für eine genaue Publikumsmessung? Wir befassen uns mit den Vor- und Nachteilen und den Möglichkeiten, sie zu nutzen.
Was ist Big Data?
In der Welt der linearen Medien bezieht sich Big Data in der Regel auf zwei Arten von Datenströmen, die von den Systemen erzeugt werden, die die Programme an die Endnutzer liefern: Rückkanal-Daten (RPD) von Kabel- oder Satelliten-Set-Top-Boxen (wie Dish oder DirecTV) und automatische Inhaltserkennung (ACR) von mit dem Internet verbundenen Smart-TV-Geräten (wie Samsung oder Vizio).
ACR-Daten
Anstelle eines Protokolls der Kanalwechsel überwacht die ACR-Technologie die Bilder auf dem Fernsehbildschirm. Die Bilder wirken wie Fingerabdrücke, die mit einer großen Referenzbibliothek verglichen werden, um festzustellen, um welches Programm oder welche Werbung es sich tatsächlich handelt. Die Bilder werden mit einem Zeitstempel versehen, um zu verstehen, wann die Wiedergabe erfolgt.
RPD-Daten
Es wird aufgezeichnet, auf welchen Kanal die Set-Top-Box eingestellt ist und zu welcher Zeit ein Kanalwechsel stattfindet. Diese Daten können mit einem Fernsehprogramm abgeglichen werden, um festzustellen, welches Programm zu einer bestimmten Zeit läuft, und mit Daten von den Werbeservern des Anbieters oder seiner Partner, um herauszufinden, welcher Werbung der Haushalt ausgesetzt ist.
In beiden Fällen erlauben die Endnutzer die Datenerfassung auf ihren Geräten. Die Zusammenarbeit ist relativ groß, da die Datenerfassung nicht nur der Messung dient, sondern auch den gewünschten Funktionen wie Nutzerpräferenzen und Inhaltsempfehlungen. Ein RPD- oder ACR-Datensatz kann weit über 30 Millionen Geräte umfassen.
Warum ist Big Data eine große Sache?
Es gab eine Zeit, in der die Menschen nur eine Handvoll Kanäle zur Auswahl hatten. Eine Einschaltquote1 von mehr als 60 (wie das Finale von M*A*S*H im Jahr 1983) oder sogar 40 (wie das Finale von Seinfeld im Jahr 1998) ist für eine Sendung mit Drehbuch heute unvorstellbar. Wir leben in einer viel stärker fragmentierten Welt mit einer sehr langen Liste von Programmoptionen.
Das ist gut für die Fernsehzuschauer, aber es erschwert die Dinge für die panelbasierte Forschung: In einem landesweiten Panel mit 101.000 Personen wird eine Fernsehsendung mit einer Bewertung von 0,2 von 80 Haushalten gesehen, aber vielleicht nur von einem im Großraum Atlanta oder Dallas. Mit zig Millionen von Geräten, die gemessen werden, ermöglicht es Big Data den Marktforschungsunternehmen, die Fernsehnutzung auf einer viel detaillierteren Ebene zu erfassen, so dass viel mehr Programme mit kleinen und oft sehr unterschiedlichen Zuschauergruppen abgedeckt werden. Big Data an sich war jedoch nie für die Messung der Zuschauerzahlen gedacht.
Herausforderung Nr. 1: Große Daten sind nicht repräsentativ
Um vertrauensvoll handeln zu können, benötigen Medienkäufer und -verkäufer eine Messlösung, die die Bevölkerung in ihrer ganzen Vielfalt widerspiegelt: Alle Altersgruppen, Rassen, Ethnien und viele andere wichtige demografische und verhaltensbezogene Merkmale müssen in den zugrunde liegenden Daten vorhanden und proportional sein.
Aber Größe ist keine Garantie für Repräsentativität. Bei der Analyse der Anzahl der installierten Geräte im nationalen TV-Panel von Nielsen haben wir festgestellt, dass die Haushalte mit RPD unverhältnismäßig älter und weniger rassisch gemischt sind als die Allgemeinbevölkerung. Hispanische Haushalte sind beispielsweise um etwa 30 % unterrepräsentiert, und Haushaltsvorstände unter 25 Jahren sind in den RPD-Datensätzen fast gar nicht vorhanden. Andererseits sind die ACR-Datensätze tendenziell jünger als die Allgemeinbevölkerung und haben auch mehr Haushaltsmitglieder. Die statistische Gewichtung in Big Data kann das Problem zwar verschleiern, aber sie kann das fehlende, einzigartige Sehverhalten der unterrepräsentierten Zielgruppen nicht ausgleichen.
Erschwerend kommt hinzu, dass bei einer Messlösung, die sich ausschließlich auf RPD- und ACR-Daten stützt, Haushalte, die nur über das Radio2 und Streaming empfangen, nicht erfasst werden, die einen immer größeren Teil des Kuchens ausmachen.
Herausforderung Nr. 2: Große Daten erfassen möglicherweise nicht das gesamte Sehverhalten
Selbst wenn sie repräsentative Haushalte enthielten, erfassen die RPD- und ACR-Datensätze nicht das Fernsehverhalten auf allen Set-Top-Boxen im Haushalt oder auf anderen Fernsehgeräten im Haushalt, die keine Smart-TVs sind. Diese zusätzlichen TV-Geräte können verschiedene Programme für verschiedene Familienmitglieder abspielen (z. B. Kochsendungen in der Küche oder Kinderprogramme im Spielzimmer). Daher sind nicht nur die Big-Data-Haushalte nicht repräsentativ für die Bevölkerung, sondern auch die Big Data selbst sind nicht repräsentativ für das gesamte Fernsehverhalten in diesen Haushalten.
Ein frustrierendes Problem für Forschungsunternehmen, die sich auf RPD verlassen, ist, dass die Set-Top-Box oft eingeschaltet bleibt, wenn das angeschlossene Fernsehgerät ausgeschaltet ist. Diese "Phantom"-Abstimmung kann das tatsächliche Sehverhalten je nach Anbieter um 145 % bis 260 % übertreiben. Es gibt Modelle, mit denen dies kompensiert werden kann, aber ohne einen Bezugspunkt - wie ein Panel, das über die tatsächlichen Sehgewohnheiten informiert ist - kann es schwierig sein, die richtige Heuristik zu entwickeln.
Auch ACR ist vor Problemen mit der Datenqualität nicht gefeit. Einige Smart-TV-Streaming-Anwendungen blockieren ACR bei der Erfassung von Bildschirminhalten, während die App verwendet wird. Es kann so aussehen, als sei das Fernsehgerät ausgeschaltet, obwohl der Inhalt in Wirklichkeit von einer App blockiert wurde. Außerdem überwachen die meisten Anbieter nur einen kleinen Teil aller verfügbaren Programme. In einer kürzlich durchgeführten Analyse haben wir festgestellt, dass ACR-Anbieter derzeit nur 31 % aller verfügbaren Sender überwachen, und 23 % der aufgezeichneten Minuten stammen immer noch von Sendern, die nicht überwacht werden. Da es keine Referenz-Fingerabdrücke gibt, mit denen man sie vergleichen kann, werden diese Sendungen nicht erfasst.
Herausforderung Nr. 3: Bei großen Daten fehlt die Demografie der Zuschauer
RPD- und ACR-Anbieter erfassen Abstimmungsdaten von Millionen von Geräten, aber sie wissen nicht, wer zuschaut, und das ist es, was die Werbekunden letztlich wollen.
Eine Möglichkeit, dieses Manko auszugleichen, ist die Zusammenarbeit mit demografischen Drittanbietern. Diese Unternehmen führen Aufzeichnungen über die demografische Zusammensetzung jedes Haushalts im Land, und ein Forschungsunternehmen könnte versuchen, anhand der Gesamtsumme der Einschaltdaten in einem bestimmten Haushalt und der demografischen Zusammensetzung dieses Haushalts zu modellieren, wer was sieht.
Eine Kindersendung? Das muss von einem Kind im Haus sein. Ein Wrestling-Kampf? Das muss von einem männlichen Zuschauer stammen. Ohne einen realen Bezugspunkt zur Unterstützung des Algorithmus für maschinelles Lernen kann man leicht erkennen, wo diese Art der Modellierung versagen könnte. Es überrascht nicht, dass die Verlässlichkeit mit zunehmender Haushaltsgröße abnimmt, was sich auf die Genauigkeit der Daten für größere Familien mit Kindern, nicht-weiße und jüngere Zuschauer auswirkt.
Der bleibende Wert von Paneldaten
Für Marken und Medienunternehmen, die auf der Suche nach einer stabilen, zuverlässigen Lösung für die Messung der Einschaltquoten sind, stellen die oben genannten Herausforderungen kein Hindernis dar. Paneldaten sind entscheidend, um diese Einschränkungen zu überwinden.
Wenn wir bei Nielsen RPD- oder ACR-Daten analysieren, können wir feststellen, welche Haushalte und Geräte zu unseren Panels gehören, und die Abstimmdaten in diesen Haushalten mit dem von unseren Messgeräten erfassten Sehverhalten vergleichen. Indem wir unsere Panels als Quelle der Wahrheit in diesen Haushalten nutzen, können wir genau feststellen, wo Big Data von der Wahrheit abweicht, und robuste Modelle entwickeln, um diese Anomalien auszugleichen.
So haben wir beispielsweise eine Methode entwickelt, mit der wir herausfinden können, wo sich ein Gerät in einem Haus befindet, und seine Abstimmdaten bestimmten Zuschauern zuordnen können. Ein anderes Modell hilft uns festzustellen, ob ein Fernsehgerät ausgeschaltet ist, während die Set-Top-Box eingeschaltet ist. Ein weiteres Modell kann Geräteaktualisierungen aussortieren, die als zusätzliche Abstimmung registriert werden, sowie Situationen, in denen ein Gerät mehr als ein Abstimmungsereignis zur gleichen Zeit liefert.
Menschen, nicht Geräte
Letztlich geht es bei der Publikumsforschung um Menschen, nicht um Geräte.
Es besteht kein Zweifel daran, dass Big Data eine großartige Bereicherung für das Arsenal der Medienforscher darstellt. Sie ermöglichen eine detailliertere Berichterstattung, als dies in der Vergangenheit je möglich war. Aber sie sind von Natur aus fehlerhaft, voreingenommen und vor allem kurzsichtig: Es werden Abstimmungsdaten erfasst, nicht Betrachtungsdaten.
Um ihr Potenzial auszuschöpfen, müssen sie bereinigt, ausgefüllt, kalibriert und mit relevanten demografischen Daten angereichert werden. Genau hier kommen die Paneldaten ins Spiel. Maschinelles Lernen funktioniert am besten mit aussagekräftigen Trainings- und Validierungsdaten, und es gibt in der Branche keine besseren Trainingsdaten als die national repräsentativen Paneldaten, die das Herzstück des heutigen Medienforschungsgeschäfts bilden.
Nielsens Need to Know erläutert die Grundlagen der Publikumsmessung und entmystifiziert die heißesten Themen der Medienbranche.
Hinweis
1 Eine Haushaltsquote ist der Prozentsatz aller Haushalte im Land, die ein bestimmtes Programm empfangen.
2 Das Programm wird über ein "Signal" von einer Antenne übertragen. Over the Air (OTA) Sendungen waren die erste Art des Fernsehens, die verfügbar war.