Big Data Analytics in Psychology and Management Research

"Good science simply transforms good theory into sound operationalizations and then make robust inferences through meticulous observations and analysis.

This is the time to think about properly wielding the Big Data sword to transform organizational research into organizational science. Think Big."

Wenzel & Van Quaquebeke (2018)

1 大数据分析

科学心理学的目标包含“解释”以及“预测”人的行为,两者虽然从哲学角度来说是兼容并立的,然而在心理学的实际应用中却并不完全相容甚至在一定程度上是矛盾的。研究者经常会面临抉择,建立一个拥有优雅理论支撑的简单模型、但预测力有限,亦或是以预测为目的、建立复杂模型期望模拟真实的数据生成过程、而对于内在机制的领悟程度也许并不完备。从另一个角度而言,前者更关注对于当前样本的描述和解释,虽然其可能未必适用于其他样本;而后者则更重视跨样本的预测能力,虽然牺牲一些对于当前样本的预测准确性。传统心理学研究 (用实验法、问卷法去研究心理机制中的中介、调节效应)更多的重视解释。

导致心理学研究重解释、轻预测的其中一个原因在于对于预测工具的掌握程度(Yarkoni & Westfall,2017)。近年来,“可重复性危机”对很多传统心理学研究结果提出了质疑,也提高了心理学研究对于方法学/量化统计分析的重视程度。应对可重复性危机,除了采用更加严谨的研究设计、恰当的统计方法进行数据分析和正确解读结果之外,伴随着更多更大量可及的数据资源和机器学习/统计学习等的兴起,心理学/管理学研究也正在逐步发展出新的篇章——数据导向,从数据中探索规律与趋势,以期达成预测的目的。重视预测与重视解释并不必然互斥,数据中得到的洞察/模型可以引领新理论的诞生和对于既有理论的补充;如此,两者便相辅相成了。

统计学习/机器学习的基本原理是借由把数据拆分为训练集(Training set)与测试集(Test/Validation set),用训练集训练模型、选择恰当参数,之后再用测试集来测试及衡量模型优劣,从而防止过拟合(overfitting), 提高模型的外在效度(external validity)。P.s.,统计学习(Statistical Learning)和机器学习(Machine Learning)本质上是差不多的概念,机器学习更重视预测准确率、从数据中自动化地学习,统计学习在预测准确率的同时也强调对模型的解释。由于差别些微,下文统一用机器学习表示。

2 统计/机器学习的方法

粗略区分,机器学习方法可以分为监督学习(supervised learning)和非监督学习(unsupervised learning)两个大类。前者有非常明确的预测指标或因变量(例如回归分析),而后者则不包括这一明确的预测指标(例如PCA主成分分析)。以下我们罗列一些最具有代表性的机器学习算法,供大家参考;当然机器学习是一个极其快速发展的领域,我们鼓励读者通过阅读最新机器学习材料不断更新自己的知识库。

2.1监督学习

2.1.1回归(Regression)

(1)线性回归,适用于因变量是连续变量的情况(Linear regression)

(2)逻辑斯蒂回归,适用于因变量是非连续变量的情况(Logistic Regression)

(3)Ridge和Lasso回归,带有正则项(regularization)的回归,对预测变量进行一定程度的筛选(regularization)

(4)非线性回归,包括但不限于:多项式回归(polynomial)、回归曲线(splines)和广义可加模型(Generalized additive model; GAM)

2.1.2基于树的方法(Tree-based Methods)

(1)分类和回归树(classification and regression trees)

(2)通过不同方法构建多棵树,包含聚集树(Bagging)、随机森林(Random Forest)和提升方法(Boosting)

2.1.3K-近邻(K-Nearest Neighbor)

2.1.4支持向量机 (Support Vector Machine)

2.2非监督学习

2.2.1主成分分析(Principal Component Analysis)

2.2.2聚类分析(Clustering)

3 统计/机器学习重要概念

3.1过拟合(Overfitting):统计模型的参数过多或者结构过于复杂,过于紧密的匹配训练集,而无法良好地预测测试集或者其他的、新的样本。机器学习模型在保障预测准确性的同时,通过训练防止过度拟合。

3.2重采样方法(Resampling methods):从训练数据集上重复采样得到多组训练样本,对每组样本拟合一个模型,从这些模型中获得额外的信息。

3.2.1交叉验证(Cross-validation):k折交叉验证(k-fold CV),留一验证(LOOCV)。很多机器学习模型在训练过程中需要通过交叉验证“最优化”其中参数的取值。

3.2.2自助(Bootstrap,音译为拔靴法):这一方法在机器学习中常用来构建多个来源于同一个样本,但却不完全相同的重采样样本。

3.3正规化(Regularization):添加损失函数,对模型向量进行“惩罚”,选择或者凸显更加重要的预测变量,减少样本变异的影响,从而避免过拟合问题。

4 用R进行大数据分析的学习资料

4.1 ISLR “An Introduction to Statistical Learning with Applications in R”(网站上可以下载书和 R codes)& 原作者录制的YouTube Video lectures:总览性的介绍了各种常用的大数据分析方法,以介绍概念为主,附带很多实例辅助讲解,数学原理的部分涉及不多。每一章节最后的Labs举例示范如何在R中实现本章所诠释的分析方法。此外,每一章节有差不多两小时的YouTube 视频教学,由作者Trevor Hastie和Robert Tibshirani亲自讲解,深入浅出,非常建议在阅读章节前后观看辅助学习。

(http://faculty.marshall.usc.edu/gareth-james/ISL/)

4.2 R for Data Science:介绍大数据分析在 R 中的实现

(https://r4ds.had.co.nz/)

4.3 Text Mining with R:介绍用R对文本数据进行挖掘分析,文本情感分析(sentiment analysis)等

(https://www.tidytextmining.com/)


4.4 统计学习进阶教材:The Elements of Statistical Learning

(https://web.stanford.edu/~hastie/Papers/ESLII.pdf)


5 一些实例

5.1机器学习:从申请者的工作经历来预测工作绩效和离职率

从工作申请文件(之前的工作描述,所陈述的离职原因)中发展可解释的变量,包括工作经验相关度, 任期历史, 非自愿的离职, 规避不好工作的经验, 寻求更好工作的经验等,运用机器学习各方法建立并比较模型,从而预测工作表现和未来离职意向。研究结果可以用来改善人才甄选方式。

Sajjadiani, S.,Sojourner, A. J., Kammeyer-Mueller, J. D., & Mykerezi, E. (2019). UsingMachine Learning to Translate Applicant Work History Into Predictors ofPerformance and Turnover. Journal of Applied Psychology, 104(10), 1207–1225.https://doi.org/10.1037/apl0000405

5.2机器学习:用机器学习模型预测领导效能

用性格特质和360度回馈来预测领导效能:当数据维度低时,OLS线性回归表现的最好;当数据维度逐渐增高,正规化回归法(Lasso, Ridge) 能够提供一些收益;当数据的维度很高时,随机森林法表现得最好。

Spisak, B. R.,van der Laken, P. A., & Doornenbal, B. M. (2019). Finding the right fuelfor the analytical engine: Expanding the leader trait paradigm through machinelearning? Leadership Quarterly, 30(4), 417–426.https://doi.org/10.1016/j.leaqua.2019.05.005


5.3机器学习:预测社会科学实验的可重复性

用机器学习方法训练预测模型、研究哪些变量对于可重复性最具有预测力,发现对于二分结果变量(可否重复)的交叉验证准确率能达到70%,与同领域研究者的预测水平相当。最具有预测力的特征包括样本量、原文的效应量、是否为主效应/交互效应。

Altmejd, A.,Dreber, A., Forsell, E., Huber, J., Imai, T., Johannesson, M., Kirchler, M.,Nave, G., & Camerer, C. (2019). Predicting the replicability of socialscience lab experiments. PLoS ONE, 14(12), 1–18.https://doi.org/10.1371/journal.pone.0225826

5.4机器学习:Facebook点赞评估人格特质比人类评估更精确?

用Facebook用户的点赞情况去预测其人格特质,比Facebook好友对其评价更加准确。电脑化人格判断尤其在预测生活状况(物质使用/政治态度/身体健康)时比自评人格特质有更高的外在效度。

Youyou, W.,Kosinski, M., & Stillwell, D. (2015). Computer-based personality judgmentsare more accurate than those made by humans. Proceedings of the NationalAcademy of Sciences of the United States of America, 112(4), 1036–1040.https://doi.org/10.1073/pnas.1418680112

5.5机器学习:游戏化、数据导向的人才甄选

用游戏化的方式(Gamified assessment)测量求职者的性格特质/认知能力,作为特征建立统计/机器学习模型,从而预测未来工作表现。藉由创造心流(flow)体验,提升求职者的感受和投入、从而激发潜能,在传递竞争意识过程中也给予他们成就感和对公司的兴趣。对于人才甄选具有实践意义。

Arctic Shores. (May21, 2019). The Rise of Gamification in Recruitment. Retrieved from https://www.arcticshores.com/blog/rise-of-gamification-in-recruitment/

5.6网络分析(network analysis):应用网络分析研究组织行为议题

以诚信领导(authentic leadership)和员工工作投入的网络分析为例,示范了如何用网络分析去研究高维度数据心理变项之间是如何关联。

Menezes, I. G.,Zwiegelaar, J., & Mendy, J. (2019). Applying network analysis to measureorganizational behaviors using R software.

5.7文字探勘(Text Mining):在管理学中的应用

(1)领导性格特质和用语习惯(Yarkoni,2010)

(2)从领导的采访/愿景陈述和公司书面报告研究领导动机和公司愿景(Kirkpatrick, Wofford, & Baum, 2002)

(3)从演讲和自传 研究领导个人魅力和工作表现(House,Spangler, & Woycke, 1991)

(4)从员工间邮件和线上交流探索不同团体间的交流模式(Holton,2009)

(5)文字探勘的局限性:需要专业知识、文字资源,可能涉及伦理议题。

Kobayashi, V. B.,Mol, S. T., Berkers, H. A., Kismihók, G., & Den Hartog, D. N. (2018). TextMining in Organizational Research. In Organizational Research Methods (Vol. 21,Issue 3). https://doi.org/10.1177/1094428117722619

5.8动态计算模型(dynamic computational modeling)在组织心理学的应用

计算模型(computational models)可以用来模拟数据,以检验目标如何随时间变化,以及系统中的各变量和情境如何随时间发生变化。从而帮助挖掘理论的意义,并且根据理论作出预测 (Weinhardt & Vancouver, 2012)。可以广泛应用在组织管理学研究中:

(1)训练和发展:e.g.,透过对学习过程进行建模,了解个体学习障碍的成因和可能的改善措施;组织的动态学习历程;员工的社会化历程;

(2)动机:e.g.,员工目标设定/自我规范的动态变化

(3)人才评估:e.g.,女性在职场升职的天花板效应

(4)团体合作:e.g,模拟团体内部信息交换如何影响团体决策

(5)员工的压力和健康行为

(6)谈判

Weinhardt, J. M.,& Vancouver, J. B. (2012). Computational models and organizationalpsychology: Opportunities abound. Organizational Psychology Review, 2(4),267–292. https://doi.org/10.1177/2041386612450455

6 为什么大数据分析可以被运用到心理学&管理学?

  • 大数据分析可以弥补心理学研究中存在的重解释、轻预测的状况,尤其对于管理学而言,预测可能更有实践意义。

  • 从数据出发建模,帮助挖掘复杂的心理模型,改善传统心理统计模型可能过于简单的局限性,从而帮助理解人类行为背后的深层模式。

  • 重视预测不应该被视为重视解释的对立面。短期重视预测可以有助于理论模型的发展,从长远看来也许能够帮助解释行为的成因。传统实验法(精心设计、具有高统计功效、随机化、控制实验) 与预测导向的大数据分析法可以相辅相成,最终有助于提升对理论的理解(Yarkoni & Westfall, 2017)。一个最显著的例子是机器学习方法可以作为研究的第一步,从预测效度出发提出对于结果最具备预测效力的指标;在之后研究中将这些预测指标作为创新理论的一部分,通过验证性方法证实/证否理论。

  • 机器学习中的一些核心思想(例如防止过拟合,通过重采样方法获取更为丰富的信息)完全可以被其他心理学研究所借鉴和采纳。

  • 机器学习的结果评估指标不再是p值,而是混淆矩阵(confusion matrix)、AUC-ROC曲线、均方根误差(RMSE)等,用机器学习作为研究方法一定程度上杜绝了传统假设验证性研究中基于p值的研究伦理问题(p-hacking)。

7 大数据分析的局限性?

  • 大数据分析未必能够考虑心理学&管理学研究中数据的结构性和因此产生的样本之间的非独立性,例如分层数据,纵向数据,基于同一对象不同来源的数据等等。当这一非独立性没有被充分考虑的时候,样本的独立性假设不再成立,因此产生的模型可能是有偏差(biased)的。

  • 对于充满噪音(noise)的心理学&管理学数据,大数据分析未必能够很好处理。例如,测量误差(measurement error)很好地通过验证性因素分析加以控制,但却通常无法在机器学习模型中被控制。

  • 虽然机器学习模型可以提供关于预测变量预测效力的洞见,但是其还是无法提供关于因果的直接分析。当研究者感兴趣因果分析的时候,我们推荐实验法,或者是针对纵向数据的工具变量法,交叉滞后模型和时间序列模型。