
章鱼大数据
-
2023年2月26日发(作者:家纺电商平台)第
31
卷第
6
期
Vol.31No.6
统计与信息论坛
Statistics&InformationForum
2016
年
6
月
Jun.
,
2016
收稿日期:
2015-11-18
作者简介:王莹,女,北京人,硕士,讲师,研究方向:统计分析与统计教育;
万舒晨,男,江苏扬州人,博士生,高级统计师,研究方向:抽样调查理论与方法,大数据分析。
【统计理论与方法】
大数据时代抽样调查面临的挑战与机遇
王莹1
,
2a,万舒晨2b
,
3
(
1.
国家开放大学统计学习中心,北京
100039
;
2.
国家统计局
a.
统计教育培训中心,
b.
工业统计司,北京
100073
;
3.
中国人民大学统计学院,北京
100872
)
摘要:传统的抽样调查作为一门成熟的统计学分支学科,在样本统计方面发挥着重要的作用,但是在大
数据时代背景下,该方法逐渐暴露出一些缺点。在分析传统抽样调查局限性和大数据自身问题的基础上,详
细分析了大数据时代下抽样调查面临的机遇和挑战。研究表明,在某些情况下,大数据统计还无法完全替代
抽样调查的独特作用,抽样调查还将在很长一段时间内发挥作用。大数据时代下,为了获得更好的数据分析
效果,应将大数据和抽样调查充分结合,进而发挥它们不同的优势。
关键词:大数据;抽样调查;挑战;机遇
中图分类号:
C811∶C829.2
文献标志码:
A
文章编号:
1007-3116
(
2016
)
06-0033-04
一、引言
世界杯上的预测帝章鱼保罗给人们留下了深刻
印象,殊不知谷歌、百度、微软等公司,利用与体育赛
事相关的大数据,在赛事预测方面也取得了不错的
成绩。近几年,随着
Goo
g
le
预测冬季流感、奥巴马
大选连任成功等大数据案例的不断出现,大数据应
用可谓初战告捷。大数据与人们的工作生活息息相
关,并且发挥着越来越重要的作用。维克托等人撰
写的经典著作《大数据时代》,提出了有关大数据的
三个基本观点:大数据不具有随机样本,而是全体数
据;大数据不是精确性,而是混杂性;大数据不是因
果关系,而是相关关系。他们认为,在大数据时代,
“样本
=
总体”,抽样调查已经没有存在的必
要[
1
]
27-45。大数据时代下抽样调查何去何从,需要
认真审视。本研究着眼于梳理大数据与抽样调查的
关系;指出大数据对抽样调查而言,既是挑战也是机
遇;分析了大数据时代下抽样调查的独特作用。本
研究的意义在于:大数据时代下应充分结合大数据
和抽样调查的优点,有效推进数据分析方法的研究,
提高数据分析结果的质量。
二、传统抽样调查的局限性
由于传统的抽样调查是在数据采集和数据处理
能力受到限制的条件下建立和逐渐发展起来的,因
而传统抽样调查在大数据时代下必然存在一些不
足。朱建平和蒋萍等学者已对抽样调查自身的缺点
进行了相关分析[
2-3
]。对此,本文对传统抽样调查
自身存在的局限性进行了归纳整理。
1.
抽样框变动问题。抽样框的质量是影响抽样
调查成功与否的关键因素。如果抽样框质量低下,
会直接导致样本代表性不足,从而导致总体推算结
果精度不够。在现实调查中,往往存在抽样框变动
频繁、变动率较大的问题。比如小微企业抽样调查
就面临企业新增和消亡变动频繁的问题;又如居民
收入抽样调查中的人口流动问题,也经常出现户主
更换或房屋空置的情况。这些情况导致企业抽样总
体与目标总体出现了较大的差异。
2.
多层次抽样推断问题。从当前中国统计调查
工作的现实来看,在中国开展调查尤其是抽样调
查,如何满足各级政府管理的需要是一个必须直面
的问题。然而,当今政府统计中大多执行以省为总
体的抽样方案,落在市、县的省级样本往往有限甚至
没有获得省级样本,这显然无法满足市、县级政府及
33
时了解掌握管辖区域社会经济发展状况的需要。从
某种意义上说,多层次抽样推断的要求与抽样调查
的初衷背道而驰,并不符合节约调查成本的要求,抽
样调查的优势及高效率无法体现。
3.
调查目的固定问题。传统抽样调查中,调查目
的一般需要事先固定,存在一定的局限性。然而,一旦
调查实施中关注的重点有所变化,现有的抽样调查设
计就无法有效满足新的调查目的或者对新调查目的调
查精度达不到设计要求。为此,往往需要重新设计调
查目的,增加调查成本,降低抽样调查的效率。
4.
调查周期过长问题。进行一次传统抽样调
查,需要包含确定调查目的、明确调查总体范围、收
集抽样框资料、制定调查内容及表式、设计抽样方法
及总体推断方法、确定抽样精度、培训调查员、数据
采集分析、形成调查结果等流程。比如收集抽样框
资料的过程,往往需要借助普查或相关行政记录数
据,对时间要求较长,再如抽样方法的确定,也需要
一定的研究测算时间。因此开展抽样调查往往周期
过长,时效性较差。
5.
多目标调查问题。实际调查中,为反映调查
总体的全貌,往往需要了解核心抽样指标以外的其
他重要指标。然而,传统的抽样调查方法一般仅仅
为了反映核心指标的情况,难以反映与核心指标相
关性较弱的指标情况,对多目标调查的抽样精度较
差。采取多目标抽样调查时,往往需要较大样本量,
调查效率不高。
三、大数据自身的一些问题
大数据时代的到来,最直接的影响就是数据收
集能力发生了质的飞跃,海量数据源源不断产生,对
抽样调查方式提出了挑战。本文经过综合对比分
析,认为大数据时代数据的收集和处理存在一些问
题,现归纳如下。
1.
大数据关注相关关系忽略因果关系的问题。
《大数据时代》一书中对于数据关系的基本观点是:不
是因果关系,而是相关关系;知道是什么就够了,没必
要知道为什么;在大数据时代,不必非得知道现象背后
的原因,而是要让数据自己发声。让数据自己发声的
观念本身没有错,这也是研究数据的较高目标,但是如
果因此得出结论重视相关关系而忽略因果关系,这就
存在一定的问题,往往违背了科学性。
大数据关注相关关系的例子不胜枚举。比如,
沃尔玛公司会把库存的蛋挞放在靠近飓风用品的位
置,以方便顾客购买从而增加销量。再如,美国折扣
零售商(
Tar
g
et
)通过查看签署婴儿礼物登记簿的女
性的消费记录,发现这些女性会在怀孕约第
3
个月
时购买许多无香乳液,几个月后会购买镁、钙、锌等
营养品,从而能够在客户孕期的每个阶段寄送相应
的优惠券。这两个例子都是大数据中比较成功的案
例,但不能就此认定,这是大数据关注相关关系忽略
因果关系的功劳。飓风来了,人们需要手电筒预防
停电,这具有比较明确的因果关系。那么飓风来临,
人们可能也是需要比较方便的食物如蛋挞以抵抗飓
风带来的不便,这可能存在一定的因果关系。同样,
给孕妇寄送优惠券可能也存在一定的因果关系:因
为怀孕了,所以选择更为健康的不含香精的天然乳
液,需要补充更多营养品来确保孕妇和宝宝的健康。
因此,两个案例背后的因果关系可能都是存在的,只
是大数据不愿意或者说来不及去关注,仅通过表层
的相关关系就得出了结论。如果仅仅通过相关关系
分析,分析结果往往是相当脆弱的,得出的结论可能
会出现较大的偏差。例如,谷歌对于流感的预测在
前期成功后对于近期一次流感爆发的趋势预测结
果,比实际情况要夸大了几乎一倍。
2.
大数据放松数据质量的问题。大数据的目的
是获得大量的数据来发掘在小数据时代无法得到的
结果。但是,大数据的数据规模实在太大,不得不放
松对于数据精确性的要求,降低数据的容错标准。
因而,客观条件决定了大数据允许不精确性,接受混
杂性,容许将一些错误的数据参杂到数据集中。然
而,这不是大数据可以放松数据质量、降低数据精度
要求的借口。可以说大数据的这点初衷是好的,但
出现错误的可能性也很大,往往可能造成得不偿失
的结果。比如,假设全国小微企业的主营业务收入
利润率为
5%
,但是如果通过大数据,根据企业的相
关业务经营活动记录(可能参杂大量的错误数据)得
出错误的利润率为
12%
。试想,以此结果制定相应
的小微企业政策,就会出现很大的问题:小微企业的
盈利能力都这么强了,还需要出台相关扶持小微企
业的政策吗?小微企业可能由于这个错误的大数据
分析结果,错过被扶持发展的良好机会。
笔者认为,造成大数据出现数据质量低下的问
题可能有以下几方面的原因。
第一,大数据收集的无效信息过多。有学者指
出,大数据是由
90%
的无效信息和
10%
的有效信息
构成的。虽然此说法不一定非常准确,但指出了大
数据的不足。大数据收集的无效信息过多,大量的
无效信息往往与有效信息混杂,对研究者的统计推
断产生严重干扰。因此,如何鉴别和测量大数据中
无效信息的影响,有效净化大数据,是摆在深化大数
据研究和应用面前需要克服的重要问题。第二,大
数据收集数据的准确度不够。大数据收集数据的过
43
统计与信息论坛
程,与建立在对问题的真实状况进行有效了解基础
上的抽样调查方式完全不同。大数据收集的主要途
径是通过互联网中的关键词搜索量来进行相关统计
分析。但是在数据的实际收集过程中,研究的复杂
问题并不能仅用个别关键词就能真实反映。通过互
联网关键词进行搜索所获取的大数据信息,往往不
能代表所研究问题的全貌,甚至是大相径庭。某种
程度上说,这仅仅是所要研究问题的一些相关的辅
助信息,并不直接反映真实总体的确切信息。因而,
在利用大数据进行分析时,数据收集的准确度就变
得非常重要。大数据分析非常强调效率,这往往导
致准确度不够,因而如何平衡效率和准确度这两者
之间的关系,是大数据分析中非常棘手的一个问题。
3.
大数据的高维问题。大数据自身具有两个特
征:大维度数据集和数据稀疏性,这也是高维数据的
特质。描述某一现象的多变量数据,即为高维数据。
随着数据维度的提高,大数据提供事物现象的相关
信息更加丰富,但是高维数据的处理方法非常困难,
可能造成“维度灾难”。大数据的高维度问题,可以
解释为决策因素随着数据的样本单位数
n
呈现出更
高量级引起的解的不确定性与经典统计推断失效的
问题。在传统的经典统计中,样本单位数
n
远大于
数据的维度
p
,而大数据分析中,数据的维度
p
,往
往远大于样本单位数
n
。在大数据的高维度研究
中,稀疏性是研究的热点问题。何为数据稀疏性?
简单来说,就是数据尽管变量很多,很多都是
0
。比
如,国家安全非常重要,从而对南海的监控范围很
大,但是如果关注的是南海上的舰队,那只是监控范
围中很小的一部分,其他部分用数值表示就是
0
。
四、大数据时代下的抽样调查
一些学者对大数据时代下的统计学方法进行了
相关讨论[
4-7
]。虽然大数据发展到目前阶段还存在
一些有待解决的问题,但笔者认为对传统的抽样调
查方式而言,这既是挑战也是机遇。
(一)大数据对抽样调查提出挑战
第一,对《大数据时代》中强调的“样本
=
总体”
的观点存在争议,事实上不可能完全利用存在无效
信息的全部大数据进行分析,因此抽样调查仍然大
有可为。抽样调查强调的是“窥一斑而知全豹”,从
充分均匀的单位中选取一部分,就能有效推断总体
的情况。但是在大数据时代,面对源源不断的数据
流,如何科学地从中选取合适的样本入样,从而保证
抽样调查样本的精度和统计分析的目的,这是大数
据时代下抽样调查面临的最大问题。
第二,大数据是动态实时变化的,因而统计调查
分析的目的可能也随之不断发生变动。在前期获得
部分样本的情况下,需要研究根据已知的样本逐步
调整调查的项目,从而获取感兴趣的抽样对象,使得
这些“热门”样本数据能够适时入样。耿直指出,建
立数据流的缓冲区,记录新发生数据的频数,动态调
整不在样本中的数据进入样本的概率,从而准确地
实时保证样本对总体的代表性和推断的准确性[
8
]。
另外,在大数据时代不应拘泥于概率抽样,可以尝试
引入非概率抽样。比如针对大数据的动态变化,可
以适时引入新种子,采用“滚雪球”抽样方法不断扩
大样本认知的广度和深度。当然,也可以采用类似
于“滚雪球”法的适应性抽样方法[
9
],尝试动态调整
初次样本的入样规则和样本外推的判断准则,更好
地适应大数据的特点。
第三,面对大数据动态变化的特点,传统抽样方
法可能导致抽取样本的偏态。比如,针对新出现的
热门案例是不常见案例的情况,如果运用传统抽样
方法,可能导致案例样本单位入样的数量过少而抽
取了过多的非案例样本。对此,需探索“基于事件”
的抽样方法,重点关注总体中较难获取的数据部分。
(二)大数据时代下的抽样调查充满机遇
1.
大数据拓宽了抽样调查数据采集的渠道。大
数据时代,数据采集不再局限于常规模式,许多数据
获取的渠道大大扩展,一些传统概念中无法获取数
据的渠道在大数据时代均有可能进行有效的数据提
取。首先,互联网和手机移动端是大数据时代下数
据采集不可忽略的重要渠道;其次,数字化的行政商
业记录也成为数据采集的有效渠道;最后,现场数据
采集的调查模式可能逐步将被超市收银系统、银行
转账和支付记录、网络支付账户等渠道取代。大数
据为抽样调查数据采集提供了很大的便利,能够降
低调查成本,缩短调查时间。
2.
大数据为抽样框的及时更新维护提供了便利
条件。抽样调查在传统条件限制下,面临的最大问
题是抽样框不完善的问题,传统的抽样框更新和维
护方法存在成本高、时效性差等缺点。大数据时代
下抽样框的更新维护,实质就是将实时变化的大数
据信息进行有效地采集和整合,转化为抽样框更新
维护时可以有效利用的数据信息的方法。傅德印等
学者提出利用异源异构互联网作为数据源,作为对
抽样框更新维护的一种补充方法[
10
]。
3.
抽样调查可作为弥补大数据因果关系分析的有
效手段。基于一些主客观条件,大数据仅重视相关关
系而忽略因果关系。因果关系有别于一般的相关关
系,它是提供更多数据信息的一种特殊相关关系。在
大数据缺乏因果关系分析的条件下,可考虑将抽样调
53
王莹,万舒晨:大数据时代抽样调查面临的挑战与机遇
查作为数据挖掘、探测数据因果关系的方法工具,从混
杂的大数据中探寻规律和关系,选取具有代表性的样
本对大数据进行深入分析,能够在相关分析的基础上
较好地分析大数据的因果关系,深度研究事物之间联
系的本质原因,从而做到“知其然也知其所以然”。
4.
抽样调查可作为大数据分析的对照基础与验
证依据。对于从混杂大数据中得到的结论,抽样调
查可作为大数据分析结果的对照和验证工具。在研
究数据质量、判断数据结果可靠程度、探讨数据之间
的关系、分析数据类型、进行数据降维和选择数据的
分析模式等方面,抽样调查效果非常明显[
11
]。抽样
调查可以有效验证大数据推断结论的可靠程度,从
而及时发现问题、分析问题并解决问题,避免大数据
可能出现的错误推断结论所造成的不利影响。
五、结论
大数据时代来临,大量数据信息源源不断,“样
本
=
总体”的概念对传统抽样调查提出了严峻的挑
战。本文在分析传统抽样调查局限性和大数据自身
问题的基础上,详细分析了大数据时代下抽样调查
面临的挑战和机遇,说明大数据时代不再需要抽样
调查的观点过于片面,大数据无法替代抽样调查的
独特作用,抽样调查仍然可以大有所为。大数据有
大数据的优势,小数据的抽样调查也有其独特的优
点,在大数据时代两者缺一不可,应该将大数据分析
与抽样调查分析相结合,从而能够取得更加令人满
意的结果。
参考文献:
[
1
]维克托·迈尔
-
舍恩伯格,肯尼思·库克耶
.
大数据时代———生活、工作与思维的大变革[
M
]
.
盛杨燕,周涛,译
.
杭州:
浙江人民出版社,
2013.
[
2
]朱建平,章贵军,刘晓葳
.
大数据时代下数据分析理念的辨析[
J
]
.
统计研究,
2014
,
31
(
2
)
.
[
3
]蒋萍,马雪娇
.
大数据背景下中国时间利用调查方案的改革与完善———基于中、日、美时间利用调查方案的比较[
J
]
.
统
计研究,
2014
,
31
(
8
)
.
[
4
]邱东
.
大数据时代对统计学的挑战[
J
]
.
统计研究,
2014
,
31
(
1
)
.
[
5
]李金昌
.
大数据与统计新思维[
J
]
.
统计研究,
2014
,
31
(
1
)
.
[
6
]李金昌
.
从政治算术到大数据分析[
J
]
.
统计研究,
2014
,
31
(
11
)
.
[
7
]戴明锋,刘展
.
大数据理解误区解读[
J
]
.
中国卫生信息管理杂志,
2015
,
12
(
1
)
.
[
8
]耿直
.
大数据时代统计学面临的机遇与挑战[
J
]
.
统计研究,
2014
,
31
(
1
)
.
[
9
]
Thom
p
sonSK.Ada
p
tiveClusterSam
p
lin
g
[
J
]
.JournaloftheAmericanStatisticalAssociation
,
1990
,
85
(
412
)
.
[
10
]傅德印,黄恒君,陶然
.
大数据视角下名录库更新维护———基于互联网异源异构数据整合的探讨[
J
]
.
统计研究,
2015
(
1
)
.
[
11
]刘军华
.
大数据视野下系统数据质量演变的信息回归、分布与趋势[
J
]
.
系统与信息论坛,
2015
(
9
)
.
Challen
g
esandO
pp
ortunitiesofSam
p
lin
g
Surve
y
intheA
g
eofBi
g
Data
WANGYin
g1
,
2a,
WANShu-chen2b
,
3
(
1.StatisticalLearnin
g
Center
,
O
p
enUniversit
y
ofChina
,
Bei
j
in
g
100039
,
China
;
a.StatisticalEducation
andTrainin
g
Center
,
b.De
p
artmentofIndustrialStatistics
,
2.NationalBureauofStatisticsofChina
,
Bei
j
in
g
100073
,
China
;
3.SchoolofStatistics
,
RenminUniversit
y
ofChina
,
Bei
j
in
g
100872
,
China
;
Abstract
:
Asamaturesub-disci
p
lineofstatistics
,
sam
p
lin
g
surve
y
hasalwa
y
sbeen
p
la
y
in
g
im
p
ortant
rolesinsam
p
lin
g
statistics.Yet
,
undertheback
g
roundofbi
g
data
,
ithas
g
raduall
y
revealedsome
drawbacks.This
p
a
p
eranal
y
sesthedisadvanta
g
esofsam
p
lin
g
surve
y
andbi
g
data
,
andmakesdetailed
anal
y
sistothechallen
g
esando
pp
ortunitiesofsam
p
lin
g
surve
y
inthea
g
eofbi
g
data.Researchesindicate
thatundercertaincircumstances
,
thes
p
ecialrolesofsam
p
lin
g
surve
y
can'tbefull
y
re
p
lacedb
y
bi
g
data
,
andsam
p
lin
g
surve
y
willbeusedforalon
g
timetocome.Des
p
itethat
,
inthea
g
eofbi
g
data
,
bi
g
data
shallbefull
y
combinedwithsam
p
lin
g
surve
y
to
g
etbettereffectsofdataanal
y
sisand
g
ivefull
p
la
y
totheir
differentadvanta
g
es.
Ke
y
words
:
bi
g
data
;
sam
p
lin
g
surve
y
;
challen
g
es
;
o
pp
ortunities
(责任编辑:李勤)
63
统计与信息论坛