콘텐츠로 건너뛰기
02_Elements/아이콘/왼쪽 화살표 인사이트로 돌아가기
인사이트 > 대상

알아야 할 사항: 잠재고객 측정에서 빅 데이터의 장단점

8분 읽기 | 2023년 8월

빅 데이터는 계속해서 헤드라인을 장식하고 있지만 정확히 무엇이며, 왜 빅 데이터가 정확한 오디언스 측정에 도움이 되기도 하고 잠재적인 장애물이 되기도 할까요? 빅데이터의 장점과 단점, 그리고 이를 활용하는 방법을 알아보세요.  

빅 데이터란 무엇인가요?

리니어 미디어 세계에서 빅 데이터는 일반적으로 최종 사용자에게 프로그램을 제공하는 시스템에서 생성되는 두 가지 유형의 데이터 스트림을 의미합니다: 케이블 또는 위성 셋톱박스(예: Dish 또는 DirecTV)의 리턴 경로 데이터(RPD)와 인터넷에 연결된 스마트 TV 세트(예: 삼성 또는 비지오)의 자동 콘텐츠 인식(ACR)이 바로 그것입니다.

ACR 데이터

ACR 기술은 채널 변경 로그가 아닌 TV 화면의 이미지를 모니터링합니다. 이미지는 지문과 같은 역할을 하며, 대규모 참조 라이브러리와 비교하여 프로그램이나 광고가 실제로 무엇인지 식별합니다. 이미지에는 타임스탬프가 찍혀 재생 시점을 파악할 수 있습니다.

RPD 데이터

셋톱박스가 어떤 채널에 튜닝되어 있는지, 채널이 몇 시에 변경되는지 기록합니다. 이 데이터를 TV 시간표와 대조하여 특정 시간에 어떤 프로그램이 재생되는지 파악하고, 제공업체의 광고 서버 또는 파트너의 데이터와 대조하여 해당 가정이 어떤 광고에 노출되는지 파악할 수 있습니다.

두 경우 모두 최종 사용자가 자신의 디바이스에서 데이터 수집을 허용합니다. 데이터 수집은 측정뿐만 아니라 사용자 선호도 및 콘텐츠 추천과 같은 많은 사람들이 원하는 기능을 제공하기 때문에 상대적으로 협력도가 높습니다. RPD 또는 ACR 데이터 세트는 3,000만 대 이상의 디바이스를 포함할 수 있습니다.

빅데이터가 중요한 이유는 무엇인가요?

사람들이 선택할 수 있는 채널이 몇 개 밖에 없던 시절이 있었습니다. 가구 시청률1 60점 이상(1983년 M*A*S*H의 피날레처럼) 또는 40점(1998년 Seinfeld의 피날레처럼)은 오늘날 대본이 있는 쇼에서는 상상할 수 없는 수치입니다. 우리는 훨씬 더 세분화된 세상에 살고 있으며, 매우 길고 긴 프로그램 옵션이 존재합니다.

이는 TV 시청자에게는 좋지만 패널 기반 조사의 경우 상황을 복잡하게 만듭니다: 전국적으로 101,000명으로 구성된 패널에서 시청률이 0.2인 TV 프로그램은 80가구에서만 시청하고, 애틀랜타나 댈러스 대도시 지역에서는 단 한 가구에서만 시청할 수도 있습니다. 수천만 대의 디바이스를 측정할 수 있는 빅데이터를 통해 리서치 회사는 훨씬 더 세분화된 수준에서 TV 사용량을 보고할 수 있으며, 소규모의 다양한 시청자를 대상으로 하는 더 많은 프로그램에 대한 커버리지를 제공할 수 있습니다. 하지만 빅 데이터는 그 자체로 시청률 측정에 사용되지는 않습니다.

과제 #1: 빅 데이터는 대표성이 없습니다.

안심하고 거래하려면 미디어 구매자와 판매자는 인구의 다양성을 모두 반영하는 측정 솔루션이 필요합니다: 모든 연령대, 인종, 민족 및 기타 여러 주요 인구 통계 및 행동 특성이 기초 데이터에 존재하고 비례해야 합니다.

하지만 규모가 대표성을 보장하지는 않습니다. 닐슨 전국 TV 패널의 설치 수를 분석한 결과, RPD를 설치한 가정은 일반 인구에 비해 불균형적으로 나이가 많고 인종적으로 다양하지 않다는 사실을 발견했습니다. 예를 들어 히스패닉 가구는 약 30% 정도 과소 대표되며, 25세 미만의 가구주는 RPD 데이터 세트에서 거의 완전히 누락됩니다. 반면에 ACR 데이터 세트는 일반 인구보다 더 젊고 가구원 수도 더 많습니다. 빅데이터에서 통계적 가중치를 사용하면 문제를 숨길 수는 있지만, 소외된 시청자의 누락된 고유한 시청 행동을 보완할 수는 없습니다.

설상가상으로, RPD 및 ACR 데이터에만 의존하는 측정 솔루션은 점점 더 많은 비중을 차지하고 있는 공중파2 및 스트리밍 전용 가구를 놓칠 수 있습니다.

과제 #2: 빅데이터가 모든 시청 행동을 포착하지 못할 수 있습니다.

대표 가구를 포함하더라도 RPD 및 ACR 데이터 세트는 가구 내 모든 셋톱박스 또는 스마트 TV가 아닌 다른 TV 세트의 시청을 포착하지 못합니다. 이러한 추가 TV 세트는 가족 구성원마다 다른 프로그램을 재생할 수 있으므로(예: 주방에서는 요리 프로그램을, 놀이방에서는 어린이 프로그램을) 빅데이터 가구가 전체 인구를 대표하지 않을 뿐만 아니라 빅데이터 자체가 해당 가정에서 일어나는 모든 시청을 대표하지도 않습니다.

RPD에 의존하는 리서치 회사들의 불만스러운 문제는 연결된 TV가 꺼져 있어도 셋톱박스가 계속 켜져 있는 경우가 많다는 것입니다. 이러한 '팬텀' 튜닝은 제공업체에 따라 실제 시청률을 145%에서 260%까지 과장할 수 있습니다. 이를 보정하기 위해 구현할 수 있는 모델이 있지만 실제 시청에 대한 정보를 제공하는 패널과 같은 기준점이 없으면 올바른 휴리스틱을 개발하기 어려울 수 있습니다.

ACR도 데이터 품질 문제에서 자유롭지 않습니다. 일부 스마트 TV 스트리밍 애플리케이션은 앱이 사용 중인 동안 ACR이 화면의 콘텐츠를 캡처하지 못하도록 차단합니다. 실제로는 앱에 의해 콘텐츠가 차단되었지만 TV가 꺼져 있는 것처럼 보일 수 있습니다. 또한 대부분의 제공업체는 전체 프로그램 중 극히 일부만 모니터링합니다. 최근 분석에 따르면, 현재 ACR 제공업체는 전체 방송국의 31%만 모니터링하고 있으며, 녹화 분량의 23%는 여전히 모니터링되지 않는 방송국에서 나오는 것으로 나타났습니다. 비교할 수 있는 기준 지문이 없기 때문에 이러한 시청은 보고되지 않습니다.

과제 #3: 빅 데이터에 시청자 인구 통계가 누락됨

RPD 및 ACR 제공업체는 수백만 대의 기기에서 튜닝 데이터를 수집하지만, 광고주가 궁극적으로 원하는 시청자 정보를 알 수 없습니다.

이러한 단점을 보완하는 한 가지 방법은 타사 인구통계 공급업체와 협력하는 것입니다. 이러한 회사는 전국의 모든 가구의 인구 통계학적 구성에 대한 기록을 보유하고 있으며, 리서치 회사는 특정 가구의 튜닝 데이터와 해당 가구의 인구 통계학적 구성의 총합을 통해 누가 무엇을 시청하는지 모델링을 시도할 수 있습니다.

어린이 프로그램이라고요? 집 안에 있는 아이가 하는 소리일 거예요. 레슬링 경기? 남성 시청자가 시청한 것이 틀림없습니다. 머신러닝 알고리즘을 지원하는 실제 기준점이 없으면 이러한 유형의 모델링이 어디에서 고장날 수 있는지 쉽게 알 수 있습니다. 당연히 가구의 규모가 커질수록 신뢰도가 점점 떨어지고, 결국 자녀가 있거나 백인이 아닌 시청자, 젊은 시청자 등 대가족의 경우 데이터의 정확도가 떨어지게 되는 것은 당연한 결과입니다. 

패널 데이터의 지속적 가치 

안정적이고 신뢰할 수 있는 오디언스 측정 솔루션을 찾고 있는 브랜드와 미디어 기업에게 위에서 설명한 문제들은 결코 쉬운 일이 아닙니다. 패널 데이터는 이러한 한계를 극복하는 데 매우 중요합니다.

닐슨에서는 RPD 또는 ACR 데이터를 분석할 때 패널에 속한 가정과 디바이스를 식별하고, 해당 가정의 시청 데이터를 미터에서 캡처한 시청 행동과 비교할 수 있습니다. 패널을 해당 가정의 진실의 원천으로 활용하면 빅데이터가 진실에서 벗어난 부분을 정확히 찾아내고 이러한 이상 현상을 조정할 수 있는 강력한 모델을 개발할 수 있습니다.

예를 들어, 집안에서 디바이스의 위치를 파악하고 특정 시청자와 튜닝 데이터를 매칭하는 방법론을 개발했습니다. 또 다른 모델은 셋톱박스가 켜져 있는 동안 TV 세트가 꺼져 있는지 여부를 판단하는 데 도움이 됩니다. 또 다른 모델은 추가 튜닝으로 등록되는 디바이스 업데이트와 한 디바이스가 동시에 두 개 이상의 튜닝 이벤트를 반환하는 상황을 분류할 수 있습니다.

기기가 아닌 사람

궁극적으로 오디언스 조사는 기기가 아니라 사람에 관한 것입니다.

빅 데이터가 미디어 연구자의 무기고에 큰 도움이 된다는 것은 의심할 여지가 없습니다. 빅데이터는 과거에 가능했던 것보다 더 세분화된 보도의 문을 열어줍니다. 하지만 빅데이터는 본질적으로 결함이 있고 편향적이며 가장 근본적으로는 근시안적입니다: 데이터를 보는 것이 아니라 조정하는 데이터를 캡처합니다.

패널 데이터의 잠재력을 실현하려면 데이터를 정리하고, 채우고, 보정하고, 관련 인구 통계로 보강해야 합니다. 이것이 바로 패널 데이터가 필요한 이유입니다. 머신러닝은 강력한 훈련 및 검증 데이터를 통해 가장 잘 작동하며, 오늘날 미디어 리서치 비즈니스의 중심에 있는 전국적으로 대표적인 패널 데이터보다 더 좋은 훈련 데이터는 업계에 존재하지 않습니다.

닐슨의 니즈가 알아야 할 사항은 오디언스 측정의 기본 사항을 검토하고 미디어 업계에서 가장 뜨거운 주제를 이해하기 쉽게 설명합니다.

참고

1 가구 시청률은 해당 국가의 모든 가구 중 특정 프로그램을 시청하는 가구의 비율입니다.
2 안테나의 '신호'를 통해 제공되는 프로그램입니다. OTA(Over the Air) 방송은 최초의 TV 유형이었습니다.

유사한 인사이트 계속 탐색