Warto wiedzieć: Plusy i minusy dużych zbiorów danych w pomiarach oglądalności

Big data wciąż pojawia się na pierwszych stronach gazet, ale czym dokładnie jest i dlaczego jest zarówno darem, jak i potencjalną przeszkodą w dokładnym pomiarze odbiorców? Przyjrzymy się zaletom, wadom i sposobom ich wykorzystania.

Czym są duże zbiory danych?

W świecie mediów linearnych, big data odnosi się zazwyczaj do dwóch rodzajów strumieni danych generowanych przez systemy dostarczające programy do użytkowników końcowych: Dane zwrotne (RPD) z dekoderów telewizji kablowej lub satelitarnej (takich jak Dish lub DirecTV) oraz automatyczne rozpoznawanie treści (ACR) z podłączonych do Internetu inteligentnych telewizorów (takich jak Samsung lub Vizio).

Dane ACR

Zamiast rejestrować zmiany kanałów, technologia ACR monitoruje obrazy na ekranie telewizora. Obrazy działają jak odciski palców, które są porównywane z dużą biblioteką referencyjną w celu zidentyfikowania programu lub reklamy. Obrazy są oznaczane czasem, aby zrozumieć, kiedy odbywa się odtwarzanie.

Dane RPD

Rejestruje, na jaki kanał dostrojony jest dekoder i o której godzinie następuje zmiana kanału. Dane te można dopasować do harmonogramu telewizyjnego, aby określić, jaki program jest odtwarzany w tym konkretnym czasie, a także z danymi z serwerów reklamowych dostawcy lub jego partnerów, aby dowiedzieć się, na jakie reklamy narażone jest gospodarstwo domowe.

W obu przypadkach użytkownicy końcowi zezwalają na gromadzenie danych na swoich urządzeniach. Współpraca jest stosunkowo wysoka, ponieważ gromadzenie danych napędza nie tylko pomiary, ale także bardzo pożądane funkcje, takie jak preferencje użytkownika i rekomendacje treści. Zbiór danych RPD lub ACR może obejmować ponad 30 milionów urządzeń.

Dlaczego big data to wielka sprawa?

Był czas, kiedy ludzie mieli do wyboru tylko kilka kanałów. Ocena gospodarstw ^domowych1 powyżej 60 (jak finał M*A*S*H w 1983 r.) lub nawet 40 (jak finał Seinfelda w 1998 r.) jest dziś nie do pomyślenia dla serialu opartego na scenariuszu. Żyjemy w znacznie bardziej rozdrobnionym świecie, z bardzo długą, długą listą opcji programowych.

To świetne rozwiązanie dla widzów telewizyjnych, ale komplikuje sprawy w przypadku badań panelowych: W ogólnokrajowym panelu obejmującym 101 tys. osób, program telewizyjny z oceną 0,2 będzie oglądany przez 80 gospodarstw domowych, a być może tylko przez jedno w obszarze metropolitalnym Atlanty lub Dallas. Dzięki dziesiątkom milionów urządzeń objętych pomiarem, big data umożliwia firmom badawczym raportowanie korzystania z telewizji na znacznie bardziej szczegółowym poziomie, zapewniając pokrycie dla znacznie większej liczby programów z małą i często zróżnicowaną widownią. Jednak big data sama w sobie nigdy nie miała być wykorzystywana do pomiaru oglądalności.

Wyzwanie nr 1: Duże zbiory danych nie są reprezentatywne

Aby prowadzić transakcje z pełnym zaufaniem, nabywcy i sprzedawcy mediów potrzebują rozwiązania pomiarowego, które odzwierciedla populację w całej jej różnorodności: Wszystkie grupy wiekowe, rasy, grupy etniczne i wiele innych kluczowych cech demograficznych i behawioralnych muszą być obecne i proporcjonalne w danych bazowych.

Rozmiar nie gwarantuje jednak reprezentatywności. Analizując liczbę zainstalowanych telewizorów w panelu Nielsen National TV, odkryliśmy, że domy z RPD są nieproporcjonalnie starsze i mniej zróżnicowane rasowo niż ogólna populacja. Na przykład latynoskie gospodarstwa domowe są niedoreprezentowane o około 30%, a głowy gospodarstw domowych w wieku poniżej 25 lat są prawie całkowicie nieobecne w zbiorach danych RPD. Z drugiej strony, zbiory danych ACR są młodsze niż populacja ogólna i mają również więcej członków gospodarstwa domowego. Korzystanie z ważenia statystycznego w dużych zbiorach danych może ukryć tę kwestię, ale nie może zrekompensować brakujących, unikalnych zachowań związanych z oglądaniem niedostatecznie reprezentowanych odbiorców.

Co gorsza, rozwiązanie pomiarowe opierające się wyłącznie na danych RPD i ACR pomijałoby gospodarstwa domowe korzystające wyłącznie z transmisji ^{bezprzewodowej2} i streamingu, które stanowią rosnący kawałek tortu.

Wyzwanie nr 2: Duże zbiory danych mogą nie wychwytywać wszystkich zachowań widzów.

Nawet gdyby obejmowały one reprezentatywne gospodarstwa domowe, zbiory danych RPD i ACR nie rejestrują oglądania z każdego dekodera w gospodarstwie domowym lub z innych telewizorów w domu, które nie są inteligentnymi telewizorami. Te dodatkowe odbiorniki telewizyjne mogą odtwarzać różne programy dla różnych członków rodziny (np. programy kulinarne w kuchni lub programy dla dzieci w pokoju zabaw), więc nie tylko gospodarstwa domowe z dużymi zbiorami danych nie są reprezentatywne dla populacji, ale same duże zbiory danych nie są reprezentatywne dla całego oglądania, które może mieć miejsce w tych domach.

Frustrującym problemem dla firm badawczych polegających na RPD jest to, że dekoder często pozostaje włączony, gdy podłączony telewizor jest wyłączony. To "fantomowe" strojenie może wyolbrzymiać rzeczywistą oglądalność o 145% do 260%, w zależności od dostawcy. Istnieją modele, które można wdrożyć, aby to zrekompensować, ale bez punktu odniesienia - takiego jak panel poinformowany o rzeczywistym oglądaniu - opracowanie właściwej heurystyki może być trudne.

ACR nie jest również odporny na problemy związane z jakością danych. Niektóre aplikacje do strumieniowania Smart TV blokują ACR przed przechwytywaniem treści na ekranie, gdy aplikacja jest w użyciu. Może to wyglądać tak, jakby telewizor był wyłączony, podczas gdy w rzeczywistości zawartość została zablokowana przez aplikację. Większość dostawców monitoruje tylko niewielką część wszystkich dostępnych programów. W niedawnej analizie stwierdziliśmy, że dostawcy ACR monitorują obecnie tylko 31% wszystkich dostępnych stacji, a 23% zarejestrowanych minut nadal pochodzi ze stacji, które nie są monitorowane. Bez referencyjnych odcisków palców do porównania, oglądanie to pozostaje niezgłoszone.

Wyzwanie nr 3: W dużych zbiorach danych brakuje danych demograficznych widzów

Dostawcy RPD i ACR przechwytują dane tuningowe z milionów urządzeń, ale nie wiedzą, kto je ogląda, o co ostatecznie proszą reklamodawcy.

Jednym ze sposobów nadrobienia tej wady jest współpraca z zewnętrznymi dostawcami danych demograficznych. Firmy te prowadzą rejestr składu demograficznego każdego gospodarstwa domowego w kraju, a firma badawcza może próbować modelować, kto co ogląda, po prostu na podstawie całkowitej sumy danych strojenia w danym gospodarstwie domowym i składu demograficznego tego gospodarstwa.

Program dla dzieci? To musi być od dziecka w domu. Mecz wrestlingu? To musi pochodzić od widza płci męskiej. Bez rzeczywistego punktu odniesienia, który pomógłby algorytmowi uczenia maszynowego, można łatwo zobaczyć, gdzie tego typu modelowanie może się zepsuć. Nic dziwnego, że staje się on coraz mniej wiarygodny wraz z wielkością gospodarstwa domowego, co ostatecznie szkodzi dokładności danych dla większych rodzin, takich jak te z dziećmi, nie-białymi i młodszymi widzami.

Trwała wartość danych panelowych

Dla marek i firm medialnych poszukujących stabilnego, niezawodnego rozwiązania do pomiaru oglądalności, wyzwania opisane powyżej są nie do pokonania. Dane panelowe mają kluczowe znaczenie dla przezwyciężenia tych ograniczeń.

W Nielsen, gdy analizujemy dane RPD lub ACR, jesteśmy w stanie zidentyfikować, które domy i urządzenia są częścią naszych paneli, i porównać dane strojenia w tych domach z zachowaniem oglądania zarejestrowanym przez nasze mierniki. Używając naszych paneli jako źródła prawdy w tych domach, możemy wskazać, gdzie duże dane odbiegają od prawdy i opracować solidne modele, aby dostosować się do tych anomalii.

Na przykład opracowaliśmy metodologię pozwalającą ustalić, gdzie urządzenie znajduje się w domu i dopasować jego dane strojenia do konkretnych widzów. Inny model pomaga nam określić, czy telewizor jest wyłączony, gdy dekoder jest włączony. Jeszcze inny model może sortować aktualizacje urządzenia, które rejestrują się jako dodatkowe strojenie, a także sytuacje, w których urządzenie zwraca więcej niż jedno zdarzenie strojenia w tym samym czasie.

Ludzie, nie urządzenia

Ostatecznie, badania odbiorców dotyczą ludzi, a nie urządzeń.

Nie ma wątpliwości, że big data to świetny dodatek do arsenału badacza mediów. Otwiera drzwi do bardziej szczegółowych raportów, niż było to możliwe w przeszłości. Ale jest z natury wadliwy, stronniczy i, co najważniejsze, krótkowzroczny: Przechwytuje dane dotyczące tuningu, a nie dane dotyczące oglądalności.

Aby wykorzystać ich potencjał, należy je oczyścić, wypełnić, skalibrować i wzbogacić o odpowiednie dane demograficzne. W tym miejscu pojawiają się dane panelowe. Uczenie maszynowe działa najlepiej z silnymi danymi szkoleniowymi i walidacyjnymi, a nie ma lepszych danych szkoleniowych w branży niż reprezentatywne dla całego kraju dane panelowe, które stanowią podstawę dzisiejszej działalności w zakresie badań mediów.

Nielsen's Need to Know omawia podstawy pomiaru oglądalności i demistyfikuje najgorętsze tematy branży medialnej.

Uwaga

¹ Ocena gospodarstw domowych to odsetek wszystkich gospodarstw domowych w kraju dostrojonych do danego programu.
2 Programy dostępne za pośrednictwem "sygnału" z anteny. Transmisje over the air (OTA) były pierwszym dostępnym rodzajem telewizji.