定量研究入门必读
从零开始,系统掌握问卷统计分析的核心知识
什么是定量研究
一句话定义
定量研究是用数字和统计方法来回答研究问题的科学方法。简单说,就是"用数据说话"。
定量研究 vs 定性研究
| 维度 | 定量研究 | 定性研究 |
|---|---|---|
| 核心问题 | 多少?多大?有关系吗? | 为什么?怎么样?意味着什么? |
| 数据类型 | 数字(问卷评分、测量值) | 文字(访谈记录、观察笔记) |
| 样本量 | 较大(通常>30) | 较小(深度访谈5-20人) |
| 分析工具 | SPSS、ChangoPSS、R、Python | NVivo、Atlas.ti、ChangoVivo |
| 结论特点 | 可推广、可复现 | 深度理解、情境依赖 |
定量研究的典型流程
提出假设
例如:"男性和女性的工作满意度存在显著差异"
设计问卷
编制量表、确定题项
收集数据
发放问卷、录入数据
统计分析
使用ChangoPSS等工具
得出结论
验证或推翻假设
方法论发展简史
概率论萌芽
帕斯卡和费马通过书信讨论赌博问题,奠定了概率论的基础。这是统计推断的理论源头。
最小二乘法
勒让德发表最小二乘法,高斯将其应用于天文学观测。这是回归分析的数学基础。
相关与回归
高尔顿研究遗传问题时发现"回归到平均"现象,皮尔逊发展出相关系数计算方法。
卡方检验诞生
卡尔·皮尔逊发明卡方检验,用于检验观察频数与期望频数的差异,开创了非参数统计。
t检验问世
戈塞特(笔名"Student")在吉尼斯啤酒厂工作时发明t检验,解决了小样本推断问题。
方差分析革命
费舍尔在农业试验站发明方差分析(ANOVA),建立了实验设计的统计框架。
信度系数
克朗巴赫提出Alpha系数,成为测量量表内部一致性的黄金标准。
SPSS诞生
斯坦福大学三位研究生创建SPSS,统计分析从此进入计算机时代。
ChangoPSS发布
AI驱动的统计分析工具,让定量研究变得像聊天一样简单!
统计学先驱
卡尔·皮尔逊
Karl Pearson (1857-1936)
"现代统计学之父"
- 发明皮尔逊相关系数(r)
- 创立卡方检验
- 建立标准差概念
罗纳德·费舍尔
Ronald Fisher (1890-1962)
"统计推断革命者"
- 发明方差分析(ANOVA)
- 确立p值显著性检验
- 发展最大似然估计
威廉·戈塞特
William Gosset (1876-1937)
"Student t检验之父"
- 在啤酒厂工作时发明t检验
- 解决小样本推断问题
- 用笔名"Student"发表论文
李·克朗巴赫
Lee Cronbach (1916-2001)
"信度测量大师"
- 提出Cronbach's Alpha系数
- 发展心理测量理论
- 推动教育评估科学化
雅各布·科恩
Jacob Cohen (1923-1998)
"效应量之父"
- 提出Cohen's d效应量
- 发展统计检验力分析
- 批评过度依赖p值
核心术语速查
计量经济学和时间序列分析
一句话定义
时间序列分析是研究随时间变化的数据的统计方法。与横截面数据(同一时间点的多个样本)不同,时间序列关注的是同一个变量在不同时间点的变化规律。
时间序列 vs 横截面数据
| 维度 | 横截面数据 | 时间序列数据 |
|---|---|---|
| 数据特点 | 同一时间点,多个样本 | 同一变量,多个时间点 |
| 典型问题 | "不同群体的差异" | "变量如何随时间变化" |
| 核心关注 | 组间差异、因果关系 | 趋势、周期性、预测 |
| 应用场景 | 问卷调研、实验研究 | 宏观经济、金融分析、销售预测 |
| 分析工具 | SPSS、ChangoPSS(SPSS方法) | Eviews、ChangoPSS(时间序列方法) |
时间序列数据的特点
时间依赖性(自相关)
时间序列数据的一个关键特征是自相关:今天的数据与昨天的数据相关,明天的数据又与今天的数据相关。这与横截面数据的"独立性假设"完全不同。
类比:横截面数据像"不同班级的成绩单",彼此独立;时间序列数据像"同一个学生连续几天的成绩",前后相关。
趋势和季节性
- 趋势:数据长期上升或下降的方向(如GDP增长趋势)
- 季节性:数据在固定周期内的重复模式(如夏季冰淇淋销量高)
- 周期性:不规则的波动模式(如经济周期)
核心概念速查
重要提醒
与SPSS方法不同,时间序列分析要求数据中必须有一个时间列(如日期、年份、月份),用于标识每个观测值的时间点。在ChangoPSS中,上传数据时需要确保至少有一个变量被识别为"时间"类型。
描述性统计
这是什么?
描述性统计是对数据进行汇总和描述的方法,帮助你了解数据的基本特征。它回答的问题是:"我的数据长什么样?"
什么时候用?
- 拿到数据后的第一步——先"认识"你的数据
- 报告样本的基本情况(如人口统计学特征)
- 检查数据是否有异常值或分布问题
核心公式
小白示例
- 均值 M = 3.8:员工平均满意度为3.8分,整体偏向满意
- 标准差 SD = 0.9:大多数员工的分数在2.9-4.7之间
- 最小值1,最大值5:有人非常不满意,也有人非常满意
ChangoPSS 如何做?
- 上传数据后,进入"分析工作台"
- 选择要分析的变量
- 点击"描述性统计"方法卡片
- 查看结果:均值、标准差、频数表、条形图一应俱全
- 点击"AI解读"获取小白版/学术版解释
交叉表与卡方检验
这是什么?
交叉表用于展示两个分类变量之间的关系,卡方检验用于判断这种关系是否显著。它回答的问题是:"这两个分类变量有关联吗?"
什么时候用?
- 比较不同群体的比例差异(如男女吸烟率)
- 检验两个分类变量的独立性
- 市场调研中的偏好分析
核心公式
小白示例
- χ²(2) = 15.3, p < .001:性别与产品偏好存在显著关联
- Cramer's V = 0.35:关联强度为中等
- 交叉表显示:男性更偏好产品A(60%),女性更偏好产品C(55%)
相关分析
这是什么?
相关分析用于测量两个连续变量之间的线性关系强度和方向。它回答的问题是:"这两个变量有关系吗?关系有多强?"
什么时候用?
- 探索变量之间是否存在关联
- 为回归分析做准备
- 检验量表的效度(与效标的相关)
核心公式
相关系数解读标准
| |r|值 | 相关强度 | 通俗解释 |
|---|---|---|
| 0.00-0.10 | 几乎无相关 | 两个变量基本没关系 |
| 0.10-0.30 | 弱相关 | 有一点关系,但不明显 |
| 0.30-0.50 | 中等相关 | 有明显的关系 |
| 0.50-0.70 | 强相关 | 关系很密切 |
| 0.70-1.00 | 极强相关 | 几乎是同一回事 |
重要提醒
冰淇淋销量和溺水事故相关(都在夏天增加),但冰淇淋不会导致溺水。相关只说明"有关联",不能证明"A导致B"。
T检验
这是什么?
T检验用于比较两组均值是否存在显著差异。它回答的问题是:"这两组人的平均分真的不一样吗?"
两种T检验
独立样本T检验
适用:比较两个不同群体
例如:男性 vs 女性的满意度
关键:两组是不同的人
配对样本T检验
适用:比较同一群体的前后测
例如:培训前 vs 培训后的得分
关键:同一批人测两次
核心公式
小白示例
- 男性:M = 3.5, SD = 0.8
- 女性:M = 4.1, SD = 0.7
- t(58) = -3.2, p = .002:女性满意度显著高于男性
- Cohen's d = 0.78:效应量接近大效应,差异很明显
方差分析 (ANOVA)
这是什么?
方差分析用于比较三组及以上的均值是否存在显著差异。它是T检验的扩展版本。
什么时候用?
- 比较不同学历组(高中/本科/硕士/博士)的收入
- 比较不同实验条件的效果
- 比较不同地区的满意度
核心公式
事后检验
ANOVA只告诉你"组间有差异",但不告诉你"哪两组之间有差异"。这时需要进行事后检验(如Tukey HSD),两两比较各组。
类比:ANOVA像老师说"班里有人考了100分",事后检验才告诉你"是小明和小红"。
回归分析
这是什么?
回归分析用于分析一个或多个自变量对因变量的影响,可以进行预测。它回答的问题是:"哪些因素影响结果?影响有多大?"
核心公式
关键指标解读
| 指标 | 含义 | 判断标准 |
|---|---|---|
| R² | 模型解释力 | 越接近1越好,>0.3通常可接受 |
| B (回归系数) | X变化1单位,Y变化B单位 | 看p值判断是否显著 |
| Beta (标准化系数) | 不同自变量的相对重要性 | 绝对值越大影响越大 |
| VIF | 多重共线性诊断 | VIF>10说明共线性严重 |
小白示例
- R² = 0.42:三个变量共解释了42%的满意度变异
- 收入 B = 0.35, p < .001, Beta = 0.45:收入对满意度影响最大
- 教育年限 B = 0.12, p = .03, Beta = 0.18:教育有显著正向影响
- 年龄 B = -0.02, p = .52:年龄对满意度没有显著影响
信度分析
这是什么?
信度分析用于检验量表/问卷的内部一致性,即多个题目是否在测量同一个概念。它回答的问题是:"我的问卷靠谱吗?"
什么时候用?
- 使用现有量表前验证其在你样本中的信度
- 自编问卷的信度检验
- 决定是否删除某些题目
Cronbach's Alpha 解读标准
| Alpha值 | 信度等级 | 建议 |
|---|---|---|
| < 0.60 | 不可接受 | 量表需要重新设计 |
| 0.60-0.70 | 勉强可接受 | 探索性研究可用 |
| 0.70-0.80 | 可接受 | 一般研究标准 |
| 0.80-0.90 | 良好 | 量表质量较高 |
| > 0.90 | 优秀 | 但要检查是否题目重复 |
CITC:找出"拖后腿"的题目
CITC(校正项目总相关)表示某个题目与其他题目的相关程度。
- CITC < 0.3:这道题可能"不合群",考虑删除
- 删除后Alpha提高:说明删除这道题能提升量表质量
探索性因子分析 (EFA)
这是什么?
因子分析是一种降维技术,用于发现多个变量背后的潜在结构。它回答的问题是:"我的问卷测了几个维度?每个维度包含哪些题目?"
什么时候用?
- 检验问卷的结构效度
- 探索数据的潜在结构
- 为后续分析提取因子得分
关键指标解读
| 指标 | 含义 | 判断标准 |
|---|---|---|
| KMO | 取样适当性 | >0.6可接受,>0.8良好,>0.9优秀 |
| Bartlett检验 | 变量间是否有相关 | p<0.05才适合做因子分析 |
| 因子载荷 | 题目属于哪个因子 | >0.4归入该因子 |
| 方差解释率 | 因子解释了多少变异 | 累计>60%较好 |
碎石图:确定因子数
碎石图显示每个因子的特征值。选择因子数的原则:
- Kaiser准则:保留特征值>1的因子
- 碎石准则:在图中找"肘部",肘部之前的因子数
- 理论指导:结合理论预期判断
二元逻辑回归
这是什么?
逻辑回归用于预测二分类的结果(是/否、成功/失败)。它回答的问题是:"哪些因素影响某件事是否发生?"
什么时候用?
- 预测客户是否会购买
- 预测患者是否会康复
- 预测员工是否会离职
核心指标解读
| 指标 | 含义 | 解读示例 |
|---|---|---|
| OR (优势比) | 自变量增加1单位,事件发生的优势变化 | OR=2.5: 优势增加150% |
| 95% CI | OR的置信区间 | 不包含1说明显著 |
| AUC | 模型区分能力 | >0.7可接受,>0.8良好 |
| 准确率 | 预测正确的比例 | 越高越好 |
OR值的通俗理解
时间序列分析
这是什么?
时间序列分析是专门用于处理随时间变化的数据的统计方法。与SPSS方法(处理横截面数据)不同,时间序列分析关注数据的时间依赖性、趋势和周期性。
什么时候用?
- 分析宏观经济指标(GDP、通胀率、失业率等)
- 金融数据分析(股价、汇率、利率等)
- 销售预测和需求预测
- 检验变量间的长期均衡关系(协整)
- 分析变量间的因果关系(格兰杰因果)
数据要求
时间序列分析要求数据中必须有一个时间列(datetime类型),用于标识每个观测值的时间点。在ChangoPSS中,上传数据时系统会自动识别日期/时间格式的变量。
单位根检验
这是什么?
单位根检验用于判断时间序列是否平稳。如果数据存在单位根(非平稳),大多数时间序列方法的结果会不可靠。
什么时候用?
- 进行时间序列分析前的第一步
- 检验数据是否需要差分处理
- 判断变量是否适合进行协整检验
小白示例
- ADF检验:p > 0.05,存在单位根,数据非平稳
- 结论:需要对GDP进行一阶差分后再分析
ARIMA模型
这是什么?
ARIMA(自回归移动平均模型)是最常用的时间序列预测模型,结合了自回归(AR)、差分(I)和移动平均(MA)三个部分。
什么时候用?
- 单变量时间序列预测(如GDP预测、销售预测)
- 数据无明显季节性模式
- 需要自动选择最优模型参数
核心概念
小白示例
- 最优模型:ARIMA(1,1,1)
- AIC = 245.3,BIC = 252.1
- 预测值:未来12个月GDP增长率在5.2%-6.8%之间
VAR模型
这是什么?
VAR(向量自回归模型)用于分析多个时间序列变量之间的动态关系,每个变量都用自己和所有其他变量的滞后值来建模。
什么时候用?
- 分析多个宏观经济变量之间的相互影响
- 不需要预先指定因果关系方向
- 进行格兰杰因果检验的前置步骤
小白示例
- 最优滞后阶数:2期
- GDP对通胀率有显著正向影响
- 利率对GDP有显著负向影响
协整检验
这是什么?
协整检验用于判断两个或多个非平稳时间序列之间是否存在长期稳定的均衡关系。
什么时候用?
- 检验变量间的长期均衡关系(如工资与物价)
- 进行VECM分析的前置步骤
- 避免"伪回归"问题
小白示例
- Johansen检验:存在1个协整关系
- 结论:工资和物价存在长期均衡关系,可以进行VECM分析
格兰杰因果检验
这是什么?
格兰杰因果检验用于判断一个变量的历史信息是否能帮助预测另一个变量的未来值。注意:这是"预测意义上的因果",不等于真正的因果关系。
什么时候用?
- 分析变量间的预测关系(如货币供应量是否影响通胀)
- 确定VAR模型中的因果关系方向
- 为政策分析提供依据
小白示例
- F统计量 = 8.5, p < 0.05
- 结论:货币供应量是通胀率的格兰杰原因
- 解释:货币供应量的历史信息有助于预测通胀率
GARCH模型
这是什么?
GARCH(广义自回归条件异方差模型)用于建模时间序列的波动率(方差)变化,捕捉"波动聚集"现象。
什么时候用?
- 金融数据分析(股价、汇率波动)
- 数据存在异方差性(方差随时间变化)
- 需要预测波动率(风险)
小白示例
- 最优模型:GARCH(1,1)
- 波动率存在明显的聚集效应
- 大涨大跌后往往继续波动
VECM模型
这是什么?
VECM(向量误差修正模型)结合了协整的长期关系和VAR的短期动态,描述变量偏离长期均衡后的调整过程。
什么时候用?
- 变量间存在协整关系
- 需要分析短期动态调整
- 政策效果分析
小白示例
- 误差修正项系数 = -0.3(负值表示向均衡调整)
- 当工资偏离长期均衡时,每月约调整30%回到均衡
时间序列预测
这是什么?
基于历史数据预测未来的时间序列值,通常使用ARIMA或其他时间序列模型,并提供置信区间表示预测的不确定性。
什么时候用?
- 销售预测、需求预测
- 宏观经济指标预测
- 金融资产价格预测
小白示例
- 未来6个月预测值:120万、125万、130万、128万、132万、135万
- 95%置信区间:预测值 ± 10万
- 趋势:销售额呈上升趋势
ChangoPSS 如何做?
- 上传包含时间列的数据(系统自动识别日期/时间格式)
- 进入"分析工作台",选择时间序列分析方法
- 选择时间列和要分析的变量
- 系统自动执行分析(包括平稳性检验、模型选择等)
- 查看结果:统计表格、可视化图表、AI解读一应俱全
- 导出报告:一键生成包含图表和解读的Word报告
SPSS vs ChangoPSS
SPSS是统计分析的"老牌选手",ChangoPSS是专为小白设计的"新生代"工具。来看看它们的对比:
| 维度 | SPSS | ChangoPSS |
|---|---|---|
| 上手难度 | 需要学习菜单和语法 | 三步完成分析,AI推荐方法 |
| 错误提示 | 技术性错误码 | 通俗解释 + 修复建议 |
| 数据质量检查 | 需手动操作 | 四维度自动评分 |
| 结果解读 | 纯数字输出 | AI双语解读(小白/学术) |
| 清洗建议 | 需专业知识 | 智能推荐方案 |
| 图表生成 | 需手动配置 | 自动生成专业图表 |
| 报告导出 | 需复制粘贴 | 一键Word报告 |
| 结果复现 | 需保存语法文件 | 唯一配方ID,参数透明 |
| 价格 | 年费数千元 | 免费使用基础功能 |
| 适合人群 | 专业研究者 | 统计小白、学生、初学者 |
总结
选择 SPSS 如果你...
- 需要高级分析功能(多层模型、SEM等)
- 已经熟悉SPSS操作
- 需要与团队共享语法文件
选择 ChangoPSS 如果你...
- 刚接触统计分析
- 需要快速完成问卷分析
- 希望有AI辅助解读结果
- 需要直接生成报告
Eviews vs ChangoPSS
Eviews是时间序列分析的"专业工具",ChangoPSS是专为小白设计的"智能助手"。来看看它们的对比:
| 维度 | Eviews | ChangoPSS |
|---|---|---|
| 上手难度 | 需要学习命令语法和菜单操作 | 三步完成分析,AI推荐方法 |
| 界面设计 | 传统桌面软件,界面复杂 | 现代化Web界面,直观易用 |
| 时间序列方法支持 | 功能全面,支持高级方法 | 支持8种核心方法(单位根、ARIMA、VAR、协整、格兰杰因果、GARCH、VECM、预测) |
| 模型选择 | 需手动尝试不同参数 | 自动选择最优模型参数(AIC/BIC) |
| 结果解读 | 纯数字输出,需专业知识解读 | AI双语解读(小白版/学术版) |
| 可视化图表 | 需手动配置,图表样式有限 | 自动生成专业图表(时间序列图、预测图、ACF/PACF图) |
| 报告导出 | 需复制粘贴结果到Word | 一键生成Word报告(含表格、图表、解读) |
| 数据质量检查 | 需手动操作 | 自动识别时间列,检查数据质量 |
| 结果复现 | 需保存程序文件 | 唯一配方ID,参数透明,一键复现 |
| 价格 | 商业软件,年费数千元 | 免费使用基础功能 |
| 适合人群 | 专业计量经济学家、金融分析师 | 统计小白、学生、初学者、需要快速分析的研究者 |
总结
选择 Eviews 如果你...
- 需要高级计量方法(如面板数据、结构方程模型等)
- 已经熟悉Eviews操作和命令语法
- 需要与团队共享程序文件
- 进行复杂的金融建模和风险分析
选择 ChangoPSS 如果你...
- 刚接触时间序列分析
- 需要快速完成常见的时间序列分析任务
- 希望有AI辅助解读结果
- 需要直接生成包含图表和解读的报告
- 不想学习复杂的命令语法
功能对比说明
ChangoPSS时间序列功能定位:ChangoPSS专注于常见的时间序列分析任务,提供8种核心方法,覆盖了大多数研究需求。对于需要高级计量方法(如面板VAR、动态因子模型等)的专业用户,Eviews可能更适合。
但ChangoPSS的优势在于:让时间序列分析变得像聊天一样简单,AI解读帮助理解结果,一键报告节省时间,特别适合学生和初学者快速上手。
动手实践
理论学完了,来动手试试吧!我们准备了一份员工满意度调查数据,让你实际操作一遍完整的分析流程。
练习任务
描述性统计
查看"工作满意度"各题项的均值和标准差,了解员工的整体满意度水平。
独立样本T检验
比较男性和女性员工的"工作投入度"是否存在显著差异。
配对样本T检验
比较"培训前得分"和"培训后得分",检验培训是否有效。
相关分析
探索"工作投入度"、"组织承诺"和"离职意向"之间的相关关系。
信度分析
检验"工作满意度"5个题项的内部一致性信度。
准备好了吗?
点击下方按钮,立即开始你的第一次统计分析!