O big data está sempre nas manchetes, mas o que ele é exatamente e por que é uma dádiva e um possível impedimento para a medição precisa do público? Analisamos os prós, os contras e as maneiras de fazer isso funcionar.
O que é big data?
No mundo da mídia linear, o big data geralmente se refere a dois tipos de fluxos de dados produzidos pelos próprios sistemas que fornecem a programação aos usuários finais: Dados de caminho de retorno (RPD) de decodificadores de cabo ou satélite (como Dish ou DirecTV) e reconhecimento automático de conteúdo (ACR) de aparelhos de TV inteligentes conectados à Internet (como Samsung ou Vizio).
Dados do ACR
Em vez de um registro de mudanças de canal, a tecnologia ACR monitora as imagens na tela da TV. As imagens funcionam como impressões digitais, que são comparadas a uma grande biblioteca de referência para identificar o que é de fato o programa ou o anúncio. As imagens são marcadas com o tempo para entender quando a reprodução está ocorrendo.
Dados de RPD
Registra em qual canal o decodificador está sintonizado e a que horas as mudanças de canal estão ocorrendo. Esses dados podem ser combinados com uma programação de TV para determinar qual programa está sendo reproduzido naquele momento específico e com dados dos servidores de anúncios do provedor ou de seus parceiros para descobrir a que publicidade a residência está exposta.
Em ambos os casos, os usuários finais permitem a coleta de dados em seus dispositivos. A cooperação é relativamente alta porque a coleta de dados impulsiona não apenas a medição, mas também recursos muito desejados, como preferências do usuário e recomendações de conteúdo. Um conjunto de dados RPD ou ACR pode abranger bem mais de 30 milhões de dispositivos.
Por que o big data é importante?
Houve uma época em que as pessoas tinham apenas um punhado de canais para escolher. Uma classificação doméstica1 acima de 60 (como o final de M*A*S*H em 1983) ou até mesmo 40 (como o final de Seinfeld em 1998) é incompreensível para um programa com roteiro hoje em dia. Vivemos em um mundo muito mais fragmentado, com uma lista muito longa de opções de programação.
Isso é ótimo para os espectadores de TV, mas complica as coisas para pesquisas baseadas em painéis: Em um painel nacional com 101 mil pessoas, um programa de TV com uma classificação de 0,2 será visto por 80 residências, e talvez apenas uma na área metropolitana de Atlanta ou Dallas. Com dezenas de milhões de dispositivos sob medição, o Big Data possibilita que as empresas de pesquisa relatem o uso da TV em um nível muito mais granular, fornecendo cobertura para muito mais programas com públicos pequenos e, muitas vezes, diversificados. Mas, por si só, o big data nunca foi planejado para ser usado na medição de audiência.
Desafio nº 1: Big data não é representativo
Para fazer transações com confiança, os compradores e vendedores de mídia precisam de uma solução de medição que reflita a população em toda a sua diversidade: Todas as faixas etárias, raças, etnias e muitas outras características demográficas e comportamentais importantes precisam estar presentes e proporcionais nos dados subjacentes.
Mas o tamanho não garante a representatividade. Ao analisar as contagens instaladas no painel da Nielsen National TV, descobrimos que as residências com RPD são desproporcionalmente mais velhas e menos diversificadas racialmente do que a população em geral. Os domicílios hispânicos, por exemplo, são sub-representados em cerca de 30%, e os chefes de família com menos de 25 anos estão quase totalmente ausentes dos conjuntos de dados de RPD. Por outro lado, os conjuntos de dados do ACR são mais jovens do que a população em geral e também têm mais membros no domicílio. O uso de ponderação estatística em big data pode ocultar o problema, mas não pode compensar os comportamentos de visualização exclusivos e ausentes de públicos sub-representados.
Para piorar a situação, uma solução de medição que se baseasse exclusivamente em dados de RPD e ACR deixaria de fora os domicílios com transmissão pelo ar2 e por streaming, que são uma parte cada vez maior do bolo.
Desafio nº 2: O big data pode não capturar todo o comportamento de visualização
Mesmo que incluíssem residências representativas, os conjuntos de dados RPD e ACR não capturam a visualização de todos os decodificadores da residência ou de outros aparelhos de TV da residência que não sejam smart TVs. Esses aparelhos de TV adicionais podem reproduzir programas diferentes para membros diferentes da família (como programas de culinária na cozinha ou programas infantis na sala de jogos), portanto, não apenas os domicílios com big data não são representativos da população, mas o big data em si não é representativo de toda a visualização que pode estar ocorrendo nesses domicílios.
Um problema frustrante para as empresas de pesquisa que dependem do RPD é que o decodificador geralmente permanece ligado quando o aparelho de TV conectado é desligado. Essa sintonia "fantasma" pode exagerar a visualização real de 145% a 260%, dependendo do provedor. Existem modelos que podem ser implementados para compensar isso, mas sem um ponto de referência - como um painel informado por visualizações reais - pode ser difícil desenvolver a heurística correta.
O ACR também não está imune a problemas de qualidade de dados. Alguns aplicativos de streaming de smart TV impedem que o ACR capture o conteúdo na tela enquanto o aplicativo está em uso. Pode parecer que o aparelho de TV está desligado quando, na verdade, o conteúdo foi bloqueado por um aplicativo. E a maioria dos provedores monitora apenas uma pequena parte de toda a programação disponível. Em uma análise recente, descobrimos que os provedores de ACR atualmente monitoram apenas 31% de todas as estações disponíveis, e 23% dos minutos gravados ainda são provenientes de estações que não são monitoradas. Sem impressões digitais de referência para comparação, essa visualização não é registrada.
Desafio nº 3: O Big Data não contém dados demográficos dos espectadores
Os provedores de RPD e ACR capturam dados de sintonia de milhões de dispositivos, mas não sabem quem está assistindo, que é o que os anunciantes estão pedindo.
Uma maneira de compensar essa deficiência é formar uma equipe com fornecedores demográficos terceirizados. Essas empresas mantêm um registro da composição demográfica de cada residência no país, e uma empresa de pesquisa pode tentar modelar quem está assistindo o quê simplesmente a partir da soma total dos dados de sintonia em uma determinada residência e da composição demográfica dessa residência.
Um programa para crianças? Deve ser de uma criança da casa. Um jogo de luta livre? Deve ser de um espectador do sexo masculino. Sem um ponto de referência da vida real para auxiliar o algoritmo de aprendizado de máquina, você pode ver facilmente onde esse tipo de modelagem pode falhar. Como era de se esperar, ele se torna progressivamente menos confiável com o tamanho da família, o que acaba prejudicando a precisão dos dados para famílias maiores, como aquelas com crianças, espectadores não brancos e mais jovens.
O valor persistente dos dados de painel
Para as marcas e empresas de mídia que buscam uma solução estável e confiável de medição de audiência, os desafios descritos acima não podem ser iniciados. Os dados de painel são essenciais para superar essas limitações.
Na Nielsen, quando analisamos dados de RPD ou ACR, podemos identificar quais residências e dispositivos fazem parte de nossos painéis e comparar os dados de sintonia nessas residências com o comportamento de visualização capturado por nossos medidores. Ao usar nossos painéis como fonte de verdade nesses lares, podemos identificar onde o big data se desvia da verdade e desenvolver modelos robustos para ajustar essas anomalias.
Por exemplo, desenvolvemos uma metodologia para descobrir onde um dispositivo está localizado dentro de uma casa e combinar seus dados de sintonia com espectadores específicos. Outro modelo nos ajuda a determinar se um aparelho de TV está desligado enquanto o decodificador está ligado. Outro modelo ainda pode classificar as atualizações do dispositivo registradas como sintonia extra, bem como as situações em que um dispositivo retorna mais de um evento de sintonia ao mesmo tempo.
Pessoas, não dispositivos
Em última análise, a pesquisa de público-alvo é sobre pessoas, não sobre dispositivos.
Não há dúvida de que o big data é um ótimo complemento para o arsenal do pesquisador de mídia. Ele abre a porta para relatórios mais granulares do que jamais foi possível no passado. Mas ele é inerentemente falho, tendencioso e, mais fundamentalmente, míope: Ele captura dados de ajuste, não de visualização.
Para atingir seu potencial, ele precisa ser limpo, preenchido, calibrado e enriquecido com dados demográficos relevantes. É aí que entram os dados de painel. O aprendizado de máquina funciona melhor com dados sólidos de treinamento e validação, e não há melhores dados de treinamento no setor do que os dados de painel nacionalmente representativos que estão no centro do negócio atual de pesquisa de mídia.
O programa Need to Know da Nielsen analisa os fundamentos da medição de audiência e desmistifica os tópicos mais quentes do setor de mídia.
Nota
1 Uma classificação domiciliar é a porcentagem de todas as residências do país sintonizadas em um determinado programa.
2 Programação disponível por meio de um "sinal" de uma antena. As transmissões over the air (OTA) foram o primeiro tipo de TV disponível.