首页 热点资讯 义务教育 高等教育 出国留学 考研考公
您的当前位置:首页正文

作答时间过短的问卷该直接删除掉吗?

2024-12-19 来源:花图问答

没错!如果你认为他们会影响你的研究结果,删掉就好了。

问卷调研作为用户研究方法中应用最为广泛的工具,如何设计有效的问卷并获取有效的数据是大多数研究人员工作内容的重要组成。一般而言,我们会假设问卷应答者会诚实有信地作答,并提供有效的研究数据。

如何剔除这些无效的问卷?研究者一般采用的方法有:

a) 反作弊问题:最简单的方式是设置两个相同的问题,但改变答案的顺序以判断应答者是否有不一致的回答;问卷太短而不适于设置两个问题,可以增加类似‘本题请选X’的问题,剔除没有阅读题目的被试数据。

b) 作答时间:通过记录用户的作答时间剔除用时过短的相关数据。

接下来,我们深入探讨一下作答时间与问卷质量的关系:

Respond Time = Mental Effort?

反应时间在心理学的应用要追溯到很久很久以前了...。不过基本上,都将反应时间视作个体在认知/行为过程中认知资源的投入指标。在同样的问题上投入更多认知资源的用户自然被认为更为认真和可靠;而对于用时过少的用户,就明显不是智商而是态度的问题了。Revilla & Ochoa(2014)的研究中也发现个体报告的主观努力与作答时间呈0.15的正相关。

这也是使用作答时间判断用户数据有没有效的基础依据。学界也有研究表明相对于使用回归分析等方法剔除异常值,以作答时间来判断无意义的数据更为便捷有效(Leiner,2013)。

除了认知资源的投入,还有什么影响作答时间?

网速、题目数量、问题的措辞等等环境因素当然也会影响到用户的作答时间。也有研究指出使用PC或手机也会导致用户的作答时间不一致(Callegaro, Baker & Bethlehem, 2014b)。不过在大多数研究中,几乎全部的应答者都受到影响,可以认为已经做了平衡处理。

在此之外,Yang & Tourangeau (2007)的研究表明应答者的受教育程度、年龄、网络使用经验都对个体的作答时间产生显著的影响:受教育程度低、年龄小、网络使用经验丰富的用户更容易成为‘超速作答者’。

Zhang & Conrad(2013)的研究更是指出了‘超速作答’可能是一种行为特质。即与问卷内容或奖励无关,‘超速作答者’就是比较回答问题超级快。(-_-)。值得欣慰的是,这些人在总人口中的占比也随着年龄的增长而减少。Yang & Tourangeau (2007)认为这是因为个体的工作记忆能力在成长的过程中逐渐衰弱了。

这些研究结果告诉我们:如果用户群体在年龄/文化水平/上网经验等方面分布较为广泛的时候,将作答时间过短的极端数据删除掉可能并不明智。

过短的作答时间真的会污染数据质量吗?

超速作答与问卷质量之间存在显著负相关(注意是相关而不是因果)。

通过分析1153份问卷结果,Greszki, Meyer & Schoen(2014)的研究表明用户的作答时间与四种答题行为呈显著的相关:

a) 跳过(No Answers):即不选择答案直接跳过,无疑会减少答题时间,与作答时间的为-0.21的相关;

b) ‘不知道’(Don’t Know):即只选类似于‘其他’等万能选项,与作答时间的为-0.21的相关;

c) 中庸选择(Middle Category):即不论问题如何,只选择中间的态度,与作答时间的为-0.05的相关;

d) 直线选择(Straightlining):即所有题目只选同样的答案,与作答时间的为-0.33的相关;在Zhang & Conrad(2013)的研究中也发现直线选择行为与超速作答者的比率呈现显著的正相关;

Revilla & Ochoa(2014)的研究通过更多的方式来判断数据质量(如同样的题目但回答不一致,简单选择的错误,对立的问题但回答无区分度等)。其研究结果发现用户的作答时间与数据质量之间呈-0.25的相关关系。

删除超速作答者的数据会影响整体数据吗?

不会!Greszki, Meyer & Schoen(2014)研究探讨了这一问题。通过计算问卷应答时间的中数,他们将超速作答者分为了三类:超速50%、40%、30%的用户。剔除这些应答者的数据都没有改变问卷的整体评估结果。

值得注意的是,这个研究里用剔除掉超速者后的数据与未剔除的结果相对比,所以这个结果如果反过来看:不删除这些数据对最后的研究发现也不会有影响(-_-) 看到这里的朋友们有没有一种‘你TMD的在逗我’的感觉。

你真的应该删除超速作答者的数据吗?

不要!如果你是处女座当然另议(噫~ 为什么我要黑处女... )

前文中已经提到过,用户的年龄、环境、使用的设备等因素均会显著影响其作答时间。如果施测的用户群体覆盖广泛的话,最好采用其它的指标(如直线回答)来判断数据的质量。

需要对‘超速’进行严格的定义。Greszki, Meyer & Schoen (2014)发现超速50%、40%、30%的用户分别有139、219、278人;即如果对超速的定义过于宽松,那你将不得不删去30%左右的数据。

最后,反正也没差,为什么要删掉他们啊。时间很多可以用来睡觉啊~~~

拓展阅读:

Online Panel Research: A Data Quality Perspective是一本书,介绍了在线问卷调查的方方面面。本文中关于Callegaro等人的研究即源于此书。

Survey research on the Internet: Yes, timing does matter 研究了什么时候给用户推送问卷能够最大化应答率(星期三早上)。

参考文献

Callegaro, M., Baker, R., Bethlehem, J., Göritz, A. S., Krosnick, J. A., & Lavrakas, P. J. (2014).16. An empirical test of the impact of smartphones on panel-based online data collection.Online Panel Research.

Greszki, R., Meyer, M., & Schoen, H. (2014).The Impact of Speeding on Data Quality in Nonprobability and Freshly Recruited Probability-based Online Panels.Online Panel Research: A Data Quality Perspective.

Leiner, D. J. (2013). Too fast, too straight, too weird: post hoc identification of meaningless data in internet surveys.Ssrn Electronic Journal.

Rahman, M., Wright, J. T., & Douglas, J. G.(2014). What are the links in a web survey among response time, quality, andauto-evaluation of the efforts done?.Social Science Computer Review,33(1), 97-114.

Yan, T., & Tourangeau, R. (2008). Fast timesand easy questions: the effects of age, experience and question complexity onweb survey response times.Applied Cognitive Psychology,22(1), 51–68.

Zhang, C., & Conrad, F. G. (2014). Speedingin web surveys: the tendency to answer very fast and its association with straightlining. Survey Research Methods,8(2), 127-135.

显示全文