调查数据分析

发布时间：2023-06-11 作者：admin 来源：文学

调查数据分析

2023年3月3日发(作者：肝功能正常指标对照表)

第四编市场调查中的数据分析

第十五章市场调查数据的录入与整理

第一节调查问卷的回收与编辑

数据资料的处理过程是从回收第一份问卷开

始的。按照事先调查方案的计划，尽量确保每份问

卷都是有效问卷（所谓“有效”问卷，指的是在调

查过程中按照正确的方式执行完成的问卷）。问卷

回收以后，督导员必须按照调查的要求，仔细的检

查问卷。检查问卷的目的在于将有错误填写，或者是挑出不完整或不

规范的问卷，保证数据的准确性。所谓错误填写即出现了那些不合逻

辑或根本不可能的结果，通过对调查员的复核，可以检查出哪些调查

员没有按照调查的要求去访问，那么，该调查员完成的问卷可能存在

很多问题。还有可能出现漏答了某些必须回答的问题，比如被访者的

人口特征等基本情况，造成问卷回答不完整。

鉴于这些情况，不管是由于调查员造成的还是被访者的原因，通

常有两种方式进行补救：对于出现漏答的问卷，通常要求调查员对受

访者进行重访，以补充未答的问题；如果不便于重访或重访后的问卷

还有问题，数目不是很多，可以当作缺失值计。如果数量非常大，这

份问卷就只能当作废卷处理，并且按照被访对象的抽样条件，补作相

关的样本。

问卷检查

本编重点

变量类型

频数（百分比）

众数、中位数

均值、标准差

卡方分析

单因素方差分析

简单相关系数

因子分析

调查报告的结构

问卷的检查一般是指对回收问卷的完整性和访问质量的检查，目

的是要确定哪些问卷可以接受，哪些问卷要作废。检查的要点包括：

（1）规定详细的检查规则，一份问卷哪些问题是必须填写完整

的，哪些问题出现缺失时可以容忍等，使督导员明确检查问卷的每一

项流程。

（2）对于每份调查员交回来的问卷必须彻底地检查，以确认调

查员或者被访者是否按照相关的要求完成了访问，并且完整的记录在

问卷恰当的位置。

（3）应该将问卷分成三种类型，一种是完成的问卷，一种是作

废的问卷，第三种是有问题的问卷，但是通过追访还可以利用的问卷。

（4）如果抽样中有配额的要求，那么应将完成的问卷中的配额

指标进行统计分析，确定问卷是否完成配额的要求，以便及时的补充

不足的样本。

（5）通常有下面的情况的问卷是不能接受的：所回收的问卷明

显不完整，缺了一页或者多页；问卷中有很多内容没有填答；问卷的

模式说明调查员（被访者）没有理解或者遵循访问指南回答等；问卷

的答案几乎没有什么变化，如在态度的选项上全部选择第ｘ项的情

况；问卷的被访者不符合抽样要求；问卷的回收日期超过了的访问的

时限等。

问卷的校订

为了加强问卷的准确性，对那些初步接受的问卷还要进行进一步

的检查和校订，在校订的过程中，通常会发现问卷中存在有字迹模糊、

问题漏选的、前后回答不一致的、答案模棱两可的和跳答错误的问题。

问卷的某些问题答案可能出现字迹模糊的情况，特别是碰上无结

构的开放式的问题时，因为调查员记录的不好，答案不容易识别。如

果发现这样的问题，必须对受访者进行追访，将积极不清楚的地方填

写清楚。

对于漏选的问题处理方法也是一样，出现漏选的题目因为各种原

因，无法进行补充访问事后，普通的问题，而且数目不大的情况，通

常作为缺失值处理；如果涉及到是受访对象的个人特征的问题，通常

只能作为废卷处理。

问卷中有些问题的答案会出现不容易理解的模棱两可的情况，或

者是使用了不是通用的缩写方式或词语，或者在该单选一项的问题

中，圈选了两项等，都必须通过追访进行补救。另外就是回答时可能

出现跳答错误的情况，这可能是因为被访对象没有很好的理解问题。

如果出现这种情况，首先要核实被访对象是否符合抽样调查的条件

（跳答题目往往是筛选条件），如果符合，进行追问补充，如果不符

合条件，问卷只能作废，重新补充样本。

问卷的回收、检查与校订可能是非常繁琐、且工作时间很长的工

作，但是却是保证数据处理过程中较少误差的重要的步骤。

问卷的编码

编码是指对一个问题的不同答案进行分组和确定数字代码的过

程。大多数问卷的大多数问题都是封闭式的，在调查之前就已经完成

了编码的过程，即每一组问题的不同答案的数字编码已经确定。

而开放式问题，因为不知道会得到什么答案，或者是希望得到比

列出的封闭式的选项更详尽的答案，所以在调查结束后，必须对这些

开放式的问题进行事后编码。开放题的事后编码的工作量很大，无法

预知会出现多少个新的代码和答案，而且有些答案是非常类似的，必

须决定是否合并成一类呢，还是分成不同的代码。具体地说明编码需

要以下几个步骤：

（1）每个需要编码的项目都必须有一份编码表，将问题和项目

的代码详细的标注在编码表的顶端位置，由于事先不知道会有多少新

的代码或答案出现，所以一定要预备足够的空间。

（2）如果编码的工作由一个编码员完成，出现错误的可能性相

对较小。但实际上，因为需要编码的问题可能很多，一个认识没有办

法按时完成的，这就需要多个编码员。在这样的情况下，一定要注意

多个编码员工作的协调。应该安排编码员在不同的时间，或者相同的

时间相同的地点，使用同一个编码表。这样可以避免编码重复的情况。

（3）研究人员应详细制定编码的守则，指导编码员如何识别答

案，并且将其归类，以及如何分配编码等等，并同时对编码的过程进

行监督和检查。编码员在编码的过程中可能有两种倾向：一种是事无

巨细将出现的每一种答案够给与新的代码，结果代码的数量比预料的

要多出很多；另一种情况是对答案的归类过于粗糙，可能丢弃了数据

中有意义的差异。对于这两种情况都必须通过守则的规定，尽量避免。

碰到无法确认的分类的时候，通常的做法是付与一个新的代码，如果

需要合并，可以在将来的数据处理过程中完成。

（4）可以对“不知道”、“无所谓”、“不清楚”、“缺失”

事先规定，但是一定要注意规定的编码与实现对该问题的最大编码的

预计的数量一致。

（5）编码的字迹必须清楚，如果可能的话，及时的进行计算机

的录入管理。

见图15-1问卷的编码

第二节调查资料的录入和整理

数据录入

数据录入是指将问卷或编码表中的每一个项目对应的代码转化

成计算机能够识别的形式的过程。这个过程需要数据录入装置（计算

机）和一个存储介质（数据库软件、磁盘）。市场调查发达的国家在

数据的采集中使用CATI、CAPI的方式很普遍，因此键盘录入的过程

已在访问的时候就已经完成了。而且对于简单的问卷调查，使用调查

卡进行光学扫描录入也能从时间上节约不少成本。但是国内目前主要

还是纸面问卷调查的形式居多，所以在问卷完成后，还需要对问卷进

行录入的操作。

大多数问卷信息通过智能录入系统进行，即使用相关的数据库软

件包。数据库软件不仅可以存储数据，而且在录入过程中，通过事先

的数据库结构的编辑，可以对录入员录入的过程进行逻辑检查，避免

数据录入过程中出现某种类型的错误，如录入无效的编码或者是太广

的编码，同时对于跳答问题的录入也能进行很好的控制，减少错误的

条约模式。

数据库软件的录入检查的范围，限制在最常见的逻辑错误上，对

于在选项范围内，因为录入员的疏忽而出错的信息，往往是不能察觉，

而录入员在问卷的输入过程中，因为速度非常快，即使是非常老练的

录入员，也会出现录入错误的情况。

为了保证数据录入的准确性，有必要对录入的结果进行核查，核

查的方式主要有双机录入或三机录入。所谓双机录入的方式，是将同

一份问卷分别由两个录入员进行两次录入，将两次的结果进行逐个比

较，相同的部分是被认为没有错误的，如果出现不同的部分，检查问

卷，及时修正。所谓三机录入，即将同一份问卷由不同的录入员录入

3次，将3次的结果通过计算机进行比较，采用“2排1”的选择，

如果2个结果是相同的，排除那个不同的答案。三机录入的方式可

以减少翻阅问卷的人工。

无论是双机录入还是三机录入，都会增加调查的时间和费用成

本，而且是成倍地增加。但是为求得数据的收集录入各个环节的准确

性，越来越多的企业和市场调查公司要求数据的正确录入的操作。

如将在图15-1问卷的编码中出现的问题进行录入，问卷编号，

城市编码，调查员编号，Q1、Q2、Q3LLQ12-1、Q12-2、Q12-3、Q13、

Q14，对应的数据库结构见图15-2。这样，输入时每份问卷按数据库

中指定的位置输入相应变量的取值，一行数字就是一份问卷。结果所

有问卷次依输入完毕就形成一个数据库。

（1）问卷编码是001号，城市是北京市，12号调查员完成的

问卷，圈选的结果是：Q1男性；Q230岁；Q3大学专科；LLQ12

圈选的235；Q13非常同意；Q14不同意；

（2）问卷编码是005号，城市是上海市，2号调查员完成的问

卷，圈选的结果是：Q1女性；Q222岁；Q3大学本科；LLQ12

圈选的13；Q13不同意；Q14非常同意；

对应的数据库1）00……23552；2）00……13045

数据的整理

如果在录入过程中，没有实行双机录入（三机录入）的措施，在

录入完成之后，有必要对数据进行全面的整理检查。数据整理主要是

尽可能的处理错误或不合理的信息以及进行一致性的检查。虽然经过

回收问卷、编码过程以及录入的重重检查，但是数据的整理过程是使

用计算机进行的，对数据的矫正将更为彻底。

数据整理可使用SPSS或SAS统计软件进行，可以很方便的寻找

出超出选项范围、极端值或逻辑上不一样的数据。通常的做法是首先

对所有变量进行频数的计算，对连续性的变量进行均值、标准差、最

小值、最大值等统计分析，超出范围的数据和极端的数值很容易检查

出来。例如，图15-1问卷的编码的调查中，关于年龄的填写，假定

缺失值为“0”，如果出现小于16，或者大于60的数值就是超出范

围的。根据对应的问卷编号，变量编码找出问卷，进行核实。

数据整理是对数据进行的最后一道检查程序，这一步完成后，数

据应该是“整齐、干净的”，然后进入下一步，对数据进行统计处理

分析。

本章小结

1．回收问卷：数据资料的处理过程是从回收第一份问卷开始的，按

照事先调查方案的计划，尽量确保每份问卷都是有效问卷（所谓“有

效”问卷，指的是在调查过程中按照正确的方式执行完成的问卷）。

问卷回收以后，督导员必须按照调查的要求，仔细的检查问卷。检查

问卷的目的在于将有错误填写，或者是挑出不完整或不规范的问卷，

保证数据的准确性。

2．问卷编码：编码是指对一个问题的不同答案进行分组和确定数字

代码的过程。大多数问卷的大多数问题都是封闭式的，在调查之前就

已经完成了编码的过程，即每一组问题的不同答案的数字编码已经确

定。而开放式问题，因为不知道会得到什么答案，或者是希望得到比

列出的封闭式的选项更详尽的答案，所以在调查结束后，必须对这些

开放式的问题进行事后编码。开放题的事后编码的工作量很大，无法

预知会出现多少个新的代码和答案，而且有些答案是非常类似的，必

须决定是否合并成一类呢，还是分成不同的代码。

3．数据录入：数据录入是指将问卷或编码表中的每一个项目对应的

代码转化成计算机能够识别的形式的过程。这个过程需要数据录入装

置（计算机）和一个存储介质（数据库软件、磁盘）。为了保证数据

录入的准确性，有必要对录入的结果进行核查，核查的方式主要有双

机录入或三机录入。

第十六章数据分析

第一节常用的统计方法

变量类型

在编码时我们已经提到过，问卷的每一个题目都可以看做是一个

变量，由于所提问题的性质不同，对应的变量类别就不一样，变量的

类别由低到高依次为：定类变量、定序变量、定距变量（定比变量）。

（1）定类变量：变量的不同取值仅仅代表了不同类的事物，这

样的变量叫定类变量。问卷的人口特征中最常使用的问题，而调查被

访对象的“性别”，就是定类变量。对于定类变量，加减乘除等运算

是没有实际意义的。

（2）定序变量：变量的值不仅能够代表事物的分类，还能代表

事物按某种特性的排序，这样的变量叫定序变量。问卷的人口特征中

最常使用的问题“教育程度”，以及态度量表题目等都是定序变量，

定序变量的值之间可以比较大小，或者有强弱顺序，但两个值的差一

般没有什么实际意义。

（3）定距变量：变量的值之间可以比较大小，两个值的差有实

际意义，这样的变量叫定距变量。有时问卷在调查被访者的“年龄”

和“每月平均收入”，都是定距变量。

定比变量与定距变量在市场调查中一般不加以区分，它们的差别

在于，定距变量取值为“0”时，不表示“没有”，仅仅是取值为0。

定比变量取值为“0”时，则表示“没有”。上面举的“年龄”、“每

月平均收入”也是定比变量，因为它们的“0”值都表示“没有”。

而像“温度”这样的变量中的“0”值并不表示“没有”，而是表示

“0℃”这一特定温度，这样的变量是定距变量，但不是定比变量。

在统计分析时，对不同类型的变量要选用不同的方法。一般的原

则是适于较低类别变量的统计方法也可用于较高类别的变量，反之则

不行。比如适用于定类变量的分析方法，同时也可用于其他类别的变

量，反过来适于定距变量的分析方法，一般不能用于其他类别的变量。

由于市场调查中的定类、定序变量较多，为了能够使用更多的统

计方法，常常将有些定类和定序变量通过某些转换变成定距变量或近

似看成定距变量，这样只适用于定距变量的统计方法，就可以用于这

些定类和定序变量了。

对于缺失值的处理

在数据整理中，经常会碰到缺失值的问题，缺失值的数量过多的

话，说明数据收集过程中存在着严重的问题。可以接受的标准是，缺

失值的数量在10%以下。处理缺失值的方法有下面4种：

（1）用一个样本统计量的值代替缺失值

缺失值可以使用一个样本的统计量去代替，最典型的做法就是使

用该变量的样本平均值。由于该变量的平均值保持不变，其他的统计

量如标准差、相关系数等都不会受到影响。如在收入或者年龄问题中

出现缺失值，可以使用收入、年龄的平均值代替缺失值。

（2）用从一个统计模型计算出来的值去代替缺失值

另一种缺失值的处理方法就是利用由某些统计模型计算得到的

比较合理的值代替，常使用的模型有回归模型、判别模型等等。如“个

人收入”、“年龄”与“品牌的选择”可能存在关系，利用这三个

问题的被访者问答数据，可能构造出一个回归方程。根据这个回归方

程，对于没有回答“品牌选择”的被访者，可以根据“个人收入”和

“年龄”的选项，利用回归方程式，计算出品牌选择的值。

（3）将有缺失值的个案删除

将有缺失值的个鞍删除的方法，结果可能会导致样本量的减少，

如果调查在收集过程中控制得不是很好，被访对象多多少少都会出现

一些问题没有回答的情况，删除个案的方法，会导致大量的样本减少。

（4）将有缺失值的个案保留，仅在相应的分析中做必要的删除

将有缺失值的个案保留，仅在相应的分析中做必要的排除的方

法，会使分析中不同计算的样本量不同，也有可能导致不适宜的结果。

调查的样本量比较大，缺失值的数量又不是很多，而且变量之间也不

存在高度的相关的情况下，市场研究者经常采用这种方式处理缺失

值。

统计方法

根据研究的目的与要求，要选择不同的统计方法。如果是对一个

变量取值的归纳整理及对其分布形态的研究，用频数分析（计算百分

比等）、众数、中位数、均值和标准差等方法或统计量来描述；对两

个变量的相关性分析，可以用卡方分析、单因素方差分析、简单相关

系数、一元线性回归分析等方法；对多个变量间的相关性分析，可以

用多元线性回归、判别分析、聚类分析、因子分析等方法。

在学习掌握这些统计方法的同时，还应该会熟练使用相关的统计

软件，因为很多统计方法靠手工计算是难以完成的。现在普遍使用的

统计软件是SPSS、SAS。

下面我们分单变量的分析、两个变量的相关分析、多个变量的相

关分析三部分，介绍一些常用的统计方法，主要介绍如何应用这些方

法，并列举模拟的例子，给出相应的用SPSS统计软件分析的结果，

使读者能够较快地学会使用这些方法。

第二节单变量分析

频数和百分比

所谓频数（Frequencies），时变量某一个去值的个案数；所谓

百分比（Percentage），是表示该取值的个案数占总样本的比例，即

频数/样本量×100%。将变量所有取值的频数和百分比列在一个表中，

这种表叫频数表，从中可以看出变量各个取值的分布情况。

频数表分析方式一般适用于定序变量和定类变量，对定距变量，

必须先将变量的取值进行分组，每一个分组作为一个新的选项，然后

对这些新的选项进行频数表的计算。

（例1）

表中第一列是“变量标签”，是对变量取值的说明（现在使用的SPSS

软件虽然是英文版，但是已经可以兼容中文，变量标签可以使用中文

表示）。

第二列是“变量取值”，即：“1”至“5”分别代表了“非常不

好”到“非常好”，其中“.”代表缺失值，即有些人没有回答此题；

第三列是“频数”，对应的数值表示各个取值的个案数，这里认

为“非常好”有16样本、认为“好”的有216个样本、认为“一般”

的有193人、认为“不好”的有10个样本、认为“非常不好”的有

1个人，而没回答此题约有65人。

第四列是“百分比”，是频数对样本量（501人）的比率。

第五列是“有效百分比”，是频数对有效个案数（所谓有效个案

数，即样本量减去缺失个案数）的比例，这里有效个案数是436人。

第六列是“累计百分比”，是对有效百分比的逐行累加的结果。

从对该题的频数分析的结果来看，对A品牌广告的评价总的来说

还是倾向于比较好的，所有的样本中，认为“不好”或者“非常不

好”的比例合计只有%，即占样本%的人不喜欢A品牌的广告。

频数和百分比计算中，百分比大小比较是一个相对的概念，频数

大小则是绝对的数值，在市场分析报告中，经常利用百分比来说明结

果，但是有时也需要频数进一步的说明之间的差异。在比较两个公司

的营业额的增长幅度时，A公司和B公司的经营规模差异巨大的情况

下，虽然A公司的增长幅度没有B公司快，这是因为A公司的实际规

模可能是B公司的几十倍，在这种情况下，也需要比较增长的实际数

额，才能全面的说明问题。

指数

指数（Index）的计算方法很多，最常用的一种方法是，将一些

待比较的数字中的一个特定的数字定为基数100，计算其他数字相对

于基数的百分数。用各种指数来描述和比较一些特定的市场的问题，

既方便又直观。定义适当的指数不但可以进行横向（不同空间）的比

较，还可以进行纵向（不同时间）的比较。为了说明20多年来广告

的发展情况，可以1978广告营业额作为基数，计算以后每年广告经

营额与基数的百分比，如果小于100的指数表明广告经营额的负增

长，如果大于100的指数，代表增长，而且还能够计算出来增长的幅

度。

指数的使用和计算方法多种多样，在使用时要注意几个问题：首

先，自定义指数时，应以简便的、合理的描述研究结果为原则；在自

定义指数时，在考虑定义的合理性和科学性的基础上，还需要考虑其

计算是否方便可行。因此使用指数进行比较时，首先应该查阅和参考

那些已经明确定义的、使用广泛的指数，避免重复制造。

其次，在应用这些指数的概念时，还必须详细了解其定义和计算

方法，以便正确的使用。目前国内的《中国统计年鉴》和各个省市的

《统计年鉴》中，指数使用已经非常平常。包括价格指数、消费指数、

收入指数等，同时类似于房地产价格指数、股票价格指数等在相应的

专业领域里使用的也是非常广泛。最后，指数定义的基数一定要与研

究目的紧密结合，根据调查的目的，确定是进行横向比较，还是进行

纵向比较更为有效，从而确定基数的订立基准。

众数、中位数、均值和标准差

用于描述一组市场调查数据或资料的中心的常用的统计量有三

种：众数、中位数和平均数。所谓众数（Mode），是表示一组数据中

出现次数最多或最常见的数值。在市场调查的数据中，众数代表了典

型的个案，或者是分布的高峰所对应的变量取值。变量的所有取值中

频数最大的取值，如在消费者的教育程度问题里，初中学历程度选项

最多，所以初中相对应的变量编码，就是众数。众数适于描述定序和

定类变量，对于定距变量，可先将数据分组，分组后频数最大的那一

组的组中值，被近似的认为是该变量的众数。

中位数（Median）表示一组数据按照大小的顺序排列时，中间位

置的那个数值，即针对某个变量，有50%的个案的取值在中位数以下。

通俗的讲，样本的所有观测值中，有一半数比中位数大，有一半数比

中位数小。中位数的计算时会面临两种情况：当样本数（n）是奇数

时，将样本的所有观测值按由小到大（或由大到小）的顺序排列，排

在中间位置上的数值即为中位数；当样本为偶数时，排在中间两个位

置上的数值的平均值即为中位数。中位数适用于定序变量，对于定距

变量，还是首先对观测值进行分组，简单的方法就是用中间那一组的

组中值作为变量的中位数。

平均数（Mean）也叫均值，等于样本的所有n个观测值之和除以

样本量。假设n个观测值用x1,x2,……xn表示，均值用x表示，

均值的公式为：

这里公式（2）是针对分组的数据而言，其中X表示某变量的取

值，f表示变量落在某一组中的频数，∑表示对所有的值求和（或

者对所有的组求和）。

平均数是最典型也是最常用的统计量，适用于定距变量和定比变

量。平均数也是最有“意义”的统计量，它可以看作是数据的“平衡

点”或“重心”位置所在。因为中位数在计算时，使用到了所有的数

据，所以与众数和中位数相比，所包含的信息量最大。但是平均数受

受极端值的影响很大，个别的极端值会直接影响平均数的熟知的变

化，不如中位数和众数稳定。因此当调查的数据分布比较规则，不存

在什么极端值，或数据对中心的偏离不是很大的情况下，平均数是很

好的描述统计量；如果存在极端值或分布步偏离比较大时，还必须使

用众数和中位数的来补充描述。

众数、中位数、均值都是对变量分布中心的描述，其中均值最为

常用。

对变量的分布形状的描述，最常用的统计量是方差或标准差。

所谓方差（Variance）或标准差（Standardvariance）是表示

分布对平均数的偏离程度或伸展程度的度量。计算公式是：

标准差，标准差的大小反映了数据对均值的离散程度，

标准差越小，表明数据越集中于均值附近，反之则越分散。任何统计

分析软件都有标准差的计算，标准差是描述分布的分散（伸展）程度

的经常使用的统计量。

例2：在表16-1是频数和百分比计算的结果，使用的变量是定序变

量，也可以近似看成定距变量，所以众数、中位数、均值和标准差都

是有意义的。见表16-2。

本节重点

卡方分析

单因素方差分析

简单相关系数

因子分析

使用图形表示分析的结果

使用图表的形式将更为直观的描述调查的结果，有助于客户更容

易理解数据的内容。在报告中使用的图形的格式非常多，最经常使用

的包括直方图、面积图、折线图和雷达图等形式。

1．直方图

2．面积图

3．折线图

第三节两个变量及多变量分析

卡方分析

卡方分析是用来研究两个定类变量间是否独立即

是否存在某种关联性的最常用的方法。简单地说，卡

方分析的方法是这样的：假设两个变量是相互独立，互不关联的。这

在统计上称为原假设；对于调查中得到的两个变量的数据，用一个表

格的形式来表示它们的分布（频数和百分数），这里的频数叫观测频

数，这种表格叫列联表见（例3）；如果原假设成立，在这个前提下，

可以计算出上面列联表中每个格子里的频数应该是多少，这叫期望频

数；比较观测频数与期望频数的差，如果两者的差越大，表明实际情

况与原假设相去甚远；差越小，表明实际情况与原假设越相近。这种

差值用一个卡方统计量来表示；对卡方值进行检验，如果卡方检

验的结果不显着，则不能拒绝原假设，即两变量是相互独立、互不关

联的，如果卡方检验的结果显着，则拒绝原假设，即两变量间存在某

种关联，至于是如何关联的，这要看列联表中数据的分布形态。

要注意的是，卡方检验受样本量的影响很大，同样两个变量，不

同的样本量，可能得出不同的结论。解决这个问题的办法是对卡方值

进行修正，最常用的是列联系数。对较大样本，当卡方检验的的结果

显着，并且列联系数也显着时（列联系数至少超过），才可拒绝原假

设；当卡方检验的结果显着，列联系数不显着时，不能轻易下结论。

另外，对变量取值的不同分类会引起卡方值的改变，有可能得到

不同的结论。所以在分类时不能随意，要有理论或统计上的依据。特

别是对定距或定序变量，要先将变量的取值分组归类，才能使用卡方

分析，而且由于分组的方法不同，也会得出不同的结论；同时，对于

定距或定序变量用卡方分析，没有充分利用它们的数量信息。这都是

在使用卡方分析时要注意的问题。

例3：在《A品牌宣传认知情况调查》中有几个关于对广告的看法和

态度的问题，其中一题是”“家电广告应当比较严谨，因为这样的

方式更适合于表现家电的性能”，备选答案有“1-非常不同意”、

“2-不同意”、“3-一般”、“4-同意”、“5-非常不同意”5种选

择。要研究对这个问题的看法与年龄有没有关系，可以使用卡方分析

的方法。

其中年龄的变量名是NND2，其取值1代表16～29岁，2代表30～

39岁，3代表40～49岁，4代表50～60岁；前面所说题目的变量名

是B106，为避免列联表中空格过多，在做卡方分析之前用SPSS中的

Recode命令将B106的取值做变换，将“非常不同意”和“不同意”

两个变量合并，用1代表，“一般”用2代表，“同意”和“非常

同意”用3代表。表16-3是用SPSS的Crosstables命令得出的两变

量的卡方分析结果。

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章