Perlu diketahui: Pro dan kontra data besar dalam pengukuran audiens

Big data terus menjadi berita utama, tetapi apa sebenarnya big data itu, dan mengapa hal ini menjadi hadiah sekaligus potensi penghalang untuk pengukuran audiens yang akurat? Kami menggali pro dan kontra, serta cara-cara untuk membuatnya berhasil.

Apa yang dimaksud dengan big data?

Dalam dunia media linear, big data biasanya mengacu pada dua jenis aliran data yang dihasilkan oleh sistem yang memberikan program kepada pengguna akhir: Return-path data (RPD) dari dekoder kabel atau satelit (seperti Dish atau DirecTV), dan pengenalan konten otomatis (ACR) dari perangkat TV pintar yang terhubung ke internet (seperti Samsung atau Vizio).

Data ACR

Alih-alih mencatat perubahan saluran, teknologi ACR memonitor gambar pada layar TV. Gambar bertindak seperti sidik jari, yang dibandingkan dengan perpustakaan referensi yang besar untuk mengidentifikasi program atau iklan yang sebenarnya. Gambar diberi cap waktu untuk memahami kapan pemutaran sedang berlangsung.

Data RPD

Mencatat saluran apa yang disetel pada dekoder dan perubahan saluran pada waktu tertentu. Data tersebut dapat dicocokkan dengan jadwal TV untuk menentukan program apa yang diputar pada waktu tertentu, dan dengan data dari server iklan penyedia layanan atau mitranya untuk mencari tahu iklan apa yang terpapar pada rumah tangga tersebut.

Dalam kedua kasus tersebut, pengguna akhir mengizinkan pengumpulan data pada perangkat mereka. Kerja sama ini relatif tinggi karena pengumpulan data tidak hanya mendorong pengukuran, tetapi juga fitur-fitur yang sangat diinginkan seperti preferensi pengguna dan rekomendasi konten. Kumpulan data RPD atau ACR dapat mencakup lebih dari 30 juta perangkat.

Mengapa big data merupakan masalah besar?

Ada suatu masa ketika orang hanya memiliki sedikit saluran untuk dipilih. ^Rating rumah tangga1 lebih dari 60 (seperti final M*A*S*H pada tahun 1983) atau bahkan 40 (seperti final Seinfeld pada tahun 1998) tidak dapat dibayangkan untuk sebuah acara dengan naskah saat ini. Kita hidup di dunia yang jauh lebih terpecah-pecah, dengan daftar pilihan program yang sangat panjang.

Hal ini bagus untuk pemirsa TV, namun menyulitkan penelitian berbasis panel: Dalam panel nasional yang terdiri dari 101 ribu orang, acara TV dengan rating 0,2 akan ditonton oleh 80 rumah tangga, dan mungkin hanya satu rumah tangga di wilayah metro Atlanta atau Dallas. Dengan puluhan juta perangkat yang sedang diukur, big data memungkinkan perusahaan riset untuk melaporkan penggunaan TV pada tingkat yang jauh lebih terperinci, memberikan cakupan untuk lebih banyak program dengan pemirsa yang kecil dan sering kali beragam. Namun dengan sendirinya, big data tidak pernah dimaksudkan untuk digunakan untuk pengukuran audiens.

Tantangan #1: Data besar tidak representatif

Untuk bertransaksi dengan percaya diri, pembeli dan penjual media membutuhkan solusi pengukuran yang mencerminkan populasi dalam segala keragamannya: Semua kelompok usia, ras, etnis, dan banyak karakteristik demografis dan perilaku utama lainnya harus ada dan proporsional dalam data yang mendasarinya.

Tetapi ukuran tidak menjamin keterwakilan. Saat menganalisis jumlah terpasang di panel TV Nasional Nielsen, kami menemukan bahwa rumah dengan RPD lebih tua secara tidak proporsional dan kurang beragam secara ras daripada populasi umum. Rumah tangga Hispanik, misalnya, kurang terwakili sekitar 30%, dan kepala rumah tangga di bawah usia 25 tahun hampir seluruhnya tidak ada dalam kumpulan data RPD. Di sisi lain, dataset ACR cenderung lebih muda daripada populasi umum, dan memiliki lebih banyak anggota rumah tangga. Menggunakan pembobotan statistik dalam data besar mungkin dapat menyembunyikan masalah ini, tetapi tidak dapat menggantikan perilaku menonton yang hilang dan unik dari audiens yang kurang terwakili.

Lebih buruk lagi, solusi pengukuran yang hanya mengandalkan data RPD dan ACR akan melewatkan rumah tangga ^{over-the-air2} dan streaming saja, yang merupakan bagian yang terus berkembang.

Tantangan #2: Data besar mungkin tidak menangkap semua perilaku menonton

Bahkan jika mereka menyertakan rumah tangga yang representatif, dataset RPD dan ACR tidak menangkap tontonan dari setiap set-top-box di rumah tangga atau dari perangkat TV lain di rumah yang bukan merupakan smart TV. Perangkat TV tambahan tersebut dapat memutar program yang berbeda untuk anggota keluarga yang berbeda (seperti acara memasak di dapur, atau program anak-anak di ruang bermain), sehingga tidak hanya rumah tangga dengan data besar tidak mewakili populasi, tetapi data besar itu sendiri juga tidak mewakili semua tontonan yang mungkin terjadi di rumah-rumah tersebut.

Masalah yang membuat frustasi bagi perusahaan riset yang mengandalkan RPD adalah dekoder sering kali tetap menyala ketika pesawat TV yang terpasang dimatikan. Penyetelan 'hantu' tersebut dapat membesar-besarkan tayangan yang sebenarnya sebesar 145% hingga 260%, tergantung penyedia layanan. Terdapat model yang dapat diimplementasikan untuk mengimbanginya, tetapi tanpa titik acuan-seperti panel yang diinformasikan oleh tayangan yang sebenarnya-mungkin sulit untuk mengembangkan heuristik yang tepat.

ACR juga tidak kebal dari masalah kualitas data. Beberapa aplikasi streaming TV pintar memblokir ACR agar tidak menangkap konten di layar saat aplikasi sedang digunakan. Ini mungkin terlihat seperti perangkat TV mati padahal sebenarnya konten telah diblokir oleh aplikasi. Dan sebagian besar penyedia layanan hanya memantau sebagian kecil dari semua program yang tersedia. Dalam analisis terbaru, kami menemukan bahwa penyedia ACR saat ini hanya memonitor 31% dari semua stasiun yang tersedia, dan 23% dari menit yang direkam masih berasal dari stasiun yang tidak dimonitor. Tanpa adanya sidik jari referensi untuk dibandingkan, penayangan tersebut tidak dilaporkan.

Tantangan #3: Data besar tidak memiliki demografi pemirsa

Penyedia RPD dan ACR menangkap data penyetelan dari jutaan perangkat, tetapi mereka tidak tahu siapa yang menonton, dan itulah yang pada akhirnya diminta oleh para pengiklan.

Salah satu cara untuk menutupi kekurangan itu adalah bekerja sama dengan pemasok demografis pihak ketiga. Perusahaan-perusahaan tersebut menyimpan catatan komposisi demografis setiap rumah tangga di negara tersebut, dan perusahaan riset dapat mencoba membuat model siapa yang menonton apa hanya dari jumlah total data penyetelan di rumah tangga tertentu dan komposisi demografis rumah tangga tersebut.

Program anak-anak? Itu pasti dari seorang anak di rumah. Pertandingan gulat? Itu pasti dari penonton pria. Tanpa titik referensi kehidupan nyata untuk membantu algoritme pembelajaran mesin, Anda dapat dengan mudah melihat di mana jenis pemodelan ini dapat rusak. Tidak mengherankan, model ini semakin tidak dapat diandalkan seiring dengan ukuran rumah tangga, dan pada akhirnya merusak keakuratan data untuk keluarga yang lebih besar, seperti keluarga yang memiliki anak-anak, pemirsa non-kulit putih, dan pemirsa yang lebih muda.

Nilai persisten dari data panel

Untuk merek dan perusahaan media yang mencari solusi pengukuran audiens yang stabil dan dapat diandalkan, tantangan yang diuraikan di atas bukanlah hal baru. Data panel sangat penting untuk mengatasi keterbatasan tersebut.

Di Nielsen, ketika kami menganalisis data RPD atau ACR, kami dapat mengidentifikasi rumah dan perangkat yang menjadi bagian dari panel kami, dan membandingkan data penyetelan di rumah-rumah tersebut dengan perilaku menonton yang ditangkap oleh pengukur kami. Dengan menggunakan panel kami sebagai sumber kebenaran di rumah-rumah tersebut, kami dapat menunjukkan dengan tepat di mana data besar menyimpang dari kebenaran dan mengembangkan model yang kuat untuk menyesuaikan anomali tersebut.

Sebagai contoh, kami mengembangkan metodologi untuk mengetahui lokasi perangkat di dalam rumah dan mencocokkan data penyetelannya dengan pemirsa tertentu. Model lain membantu kami menentukan apakah pesawat TV mati saat dekoder menyala. Model lainnya dapat memilah pembaruan perangkat yang terdaftar sebagai penyetelan tambahan, serta situasi di mana perangkat mengembalikan lebih dari satu acara penyetelan pada saat yang sama.

Orang, bukan perangkat

Pada akhirnya, riset audiens adalah tentang orang, bukan perangkat.

Tidak diragukan lagi bahwa data besar merupakan tambahan yang bagus untuk gudang peneliti media. Hal ini membuka pintu bagi pelaporan yang lebih terperinci daripada yang pernah ada sebelumnya. Namun, pada dasarnya hal ini memiliki kelemahan, bias, dan yang paling mendasar adalah kepicikan: Alat ini menangkap data penyetelan, bukan melihat data.

Untuk memenuhi potensinya, data ini perlu dibersihkan, diisi, dikalibrasi, dan diperkaya dengan data demografi yang relevan. Di sinilah data panel berperan. Pembelajaran mesin bekerja paling baik dengan data pelatihan dan validasi yang kuat, dan tidak ada data pelatihan yang lebih baik di industri ini selain data panel yang representatif secara nasional yang berada di jantung bisnis riset media saat ini.

Nielsen's Need to Know mengulas dasar-dasar pengukuran audiens dan mengungkap topik-topik terpanas di industri media.

Catatan

¹ Peringkat rumah tangga adalah persentase dari seluruh rumah tangga di negara tersebut yang menyetel program tertentu.
2 Program tersedia melalui "sinyal" dari antena. Siaran melalui udara (OTA) merupakan jenis TV yang pertama kali tersedia.