数字电视用户收视行为调查系统 最大并发量研究及推广前景

作者:汪莉,刘超
发表于:CCBN2010论文集

摘要:
本文以数字电视用户收视行为调查系统的最大并发量为依据,理论联系实际,分析机顶盒回传数据的概率,提出了“十分之一理论”。即在收视数据回传最为集中时,每秒钟的最大回传量大约为抽样人群(即机顶盒数量)的十分之一。据此可以推导出SBSS收视行为调查系统所需要的网络带宽,分析系统大范围推广的可行性。

关键字:SBSS、收视率、并发量、收视行为调查

1、引言

 随着广播电视的全面数字化,电视节目收视率越来越受到大家的关注,传统的收视率调查方法——电话法、日记卡与测量仪法所得到的收视结果遭受越来越多的质疑和挑战。随着数字平移工作的展开,机顶盒已成为电视用户最基本的硬件配置,双向机顶盒也随着广电业务的扩展逐渐普及。基于双向机顶盒平台的收视行为调查分析,是有线电视技术的自然发展,也是有线电视运营商非常现实的一项需求。
2009年7月31日,中国下一代广播电视网(NGB)启动暨上海示范网合作协议签字仪式事件标志着NGB进入了实质性的推进阶段。中国下一代广播电视网(NGB)的核心传输带宽将超过每秒1T比特、保证每户接入带宽超过每秒40M比特。“三网融合”以后,有线电视业务将会变得更加丰富,如高清点播,节目录制、拾遗等。电信运营商的加入将使竞争更加激烈,运营规模也从区域管理扩大到全国统一管理,对整体运营的精准管理和持续运行性要求更高。在这种前提下,双向机顶盒已经成为业务支撑和管理的必备硬件。
北京中视利通科技有限公司SBSS(Subscriber’s Behavior Survey System)数字电视用户收视行为调查系统是基于有线网络研发的一款拥有完全自主知识产权的高科技软件系统。该系统利用有线电视双向机顶盒进行数据采集、采用模块化设计和实现,以国际通用的分析方法,客观、准确、合理的对用户收视行为进行统计分析,并荣获国家广电总局2008年度的科技创新二等奖,具有国内领先水平,系统中多种创新技术获得诸多专家好评。SBSS收视行为调查系统2009年6月成功在安徽马鞍山上线,实网运行良好。
SBSS收视行为调查系统根据数字机顶盒和双向网络进行数据采集,采用UDP传输协议加线程池处理技术进行数据回传,实现收视率的精准统计和分析。由于电视用户收视时间比较集中,短时间内服务器端将会出现大量并发socket连接。如何合理计算网络回传的最大并发量,从而有效的部署和利用网络资源,克服传输瓶颈,准确、完整、及时的为收视行为调查系统服务具有非常重要的意义。

2、数据分析

 收视率调查是一种抽样调查。传统的调查方法存在种种弊端,如人工干预程度大、抽样不够广泛、随机性大等,使收视率调查结果失真。目前国内的收视率调查误差理论上一般控制在3%~5%,主要原因是影响调查成本的样本量的增加随着允许误差的减少呈非线性增长。而传统的调查手段中又存在着太多人为因素,如电话调查,日记法调查等,所以实际误差远远大于理论控制的范围,同时人工干预可能存在的错误会影响收视率调查的结果。SBSS系统数据采集、传输、分析过程全部自动化,排除人工操作可能存在的错误,控制误差,实现收视率的实时、精准调查。
三网融合以后,全国有线网络实现统一管理是大势所趋。与此同时,双向机顶盒全国普及之后,SBSS系统便可以无缝升级嵌入到机顶盒中,潜在的样本终端可以实现全国普及。在此背景下,建立一个全新的收视行为调查网络已经可以实现,系统大范围的推广只需要考虑系统的可持续运行性。影响系统正常运行的主要原因在于网络传输。影响网络传输的主要因素包括以下三个方面:收视行为调查的样本量、数据回传的最大并发概率和网络传输的信息量。具体分析如下:

(1)收视行为调查的样本量

理论分析:根据收视率调查抽样样本量计算公式:n=t2P(1-P)/M2
其中:n为样本量,P为收视率,M为允许误差,t为概率度。
在样本量计算中,收视率一般取50%,因为此时P(1-P)在所有可能的收视水平中达到最大。置信水平一般取95%,对应的概率度t为1.96。则样本量n多少取决于允许误差的大小,表1显示了样本量n与允许误差M之间的关系表:
表1:样本量与允许误差关系表


允许误差(%)

样本量(人)

0.1

960400

0.3

106711

1

9604

2

2401

3

1067

4

600

5

384

目前国内收视率调查的样本量较少,所以精度无法达到更高。SBSS收视行为调查系统全国普及后,样本量将会十分可观,样本的随机性大,并可以定期更改,轻松达到万数量级的样本量,误差控制在1%左右。如果调查范围广、系统精确度要求更高,可增加样本量,例如全国范围内十万、百万级别的样本量,收视率的误差将会更小,趋近于零误差。

(2)数据回传最大并发概率

实际分析:SBSS收视行为调查系统目前已经在安徽马鞍山地区成功运营。系统采用整群抽样的方式进行,抽样人群数目(安装双向机顶盒数量)为200,覆盖人群达一万户以上。截止至2010年3月1日,已经取得398370条收视数据。由于收视行为的差异性,收视行为并发高峰理论推导没有太大实际意义,本文以SBSS实际采集的数据,进行数据挖掘,通过计算推导相关峰值情况。
图1、图2和图3展示了2009年12月至2010年2月马鞍山地区每天每秒钟回传的最大值数据情况:

图1:马鞍山2009年12月每秒钟回传最大值汇总图[数据来源:中视利通SBSS调查系统]

  图2:马鞍山2010年1月每秒钟回传最大值汇总图[数据来源:中视利通SBSS调查系统]

图3:马鞍山2010年2月每秒钟回传最大值汇总图[数据来源:中视利通SBSS调查系统]
由实际数据统计结果可知,目前每秒数据回传量的最大值为18,即200个机顶盒样本量每秒最大回传值为18,大约为样本总量的“十分之一”。从目前统计得到的结果上看,工作日周一和周五的并发量最大,其余时间回传值相对固定,且回传的最大值集中在每天的黄金时段。目前SBSS收视行为调查系统调查规模较小,运行时间短,实际数据量较少,分析结果可能会存在一定的片面性,但分析的技术理论已经成熟,而且不存在人工干预产生的误差,可以推导出数据回传的并发概率。随着SBSS收视行为调查系统分布的范围越来越广,我们的调查也会越来越精确。

(3)网络传输的信息量

实际分析:根据SBSS调查系统内部计算,目前网络传输一条收视数据的最大值为120Byte
综合上述:我们可以推导出系统所需要的网络带宽。假设:A=收视率抽样调查样本量、B=数据回传最大并发概率、C=网络信息传送量、D=需要的网络带宽,则:
D=A×B×C
若允许误差为1%(精确度已远高于国内同行业调查水平),则A=9604,
以实际分析得到数据回传最大并发概率B=0.1,
网络传输的信息量,以最大值计算C=120Byte,
则:D=((9604×0.1×120)
所需的网络带宽换算为M为单位得到:
D=((9604×0.1×120)/(1024×1024))×8=0.879(M)
SBSS收视行为调查系统仅需要0.879M的带宽就可以实现收视率的抽样统计。即对于城市或者地区的收视调查样本量达到万级水平时,SBSS收视行为调查系统需要的带宽还不到1M。如果对于省级、全国等大范围的收视率统计或者要求精度更高时,可以增加样本量,当样本量达到百万级(此时允许的误差高达0.1%)时,所需网络带宽为:
D=((1000000×0.1×120)/(1024×1024))×8=91.553(M)
SBSS收视行为调查系统在大范围应用时,所需的核心带宽还不到92M,相比三网融合后1T的核心带宽是微不足道的。且SBSS收视行为调查系统采用集群式分布架构,可以实现多级架构,系统可以不断扩容,在实现对各个地方收视率的精确分析和统计同时,还可以实现跨市、跨省甚至全国范围内的收视分析统计。
综上所述,我们可以看到大范围推广以双向机顶盒进行准确的收视率调查已具备条件,SBSS收视行为调查系统可以大范围推广应用。阿基米德曾经说过:如果给我一个支点和一根足够长的杆子,我可以撬动地球。同样我们也可以说,仅需要92M的核心带宽,我们就可以处理全国14亿观众的收视高峰并发数据回传的问题,实现全国收视率的准确统计和全面分析。

3 、结论

本文以计算机技术为手段,理论分析了进行收视率调查时调查样本量与收视率误差的关系,并实际分析SBSS收视行为调查系统的最大并发量和网络收视信息传输量。理论结合实际计算出SBSS收视行为调查系统所需的最大带宽及系统大范围推广的可行性。SBSS系统大范围普及后,可公正、客观、准确地实现收视率的实时调查,从根本上解决收视率调查不准确,收视率不真实等问题,同时提供的到达率、收视市场份额等相关指标也将为网络运营、广告投放等提供真实、可靠、具有实际性意义的指导数据。

参考资料:
《收视率调查应用手册》  王兰柱

 


版权所有©北京中视利通科技有限公司 BeiJingLittleJossTech.Co.,Ltd.