评估二手数据必不可少的五个具体标准是什么?
在我的职业生涯中,我经常使用二手数据,所以以下是我的观察:
首先,谁产生了数据,为什么?
- 它是否是可靠的来源,例如政府统计机构(例如加拿大统计局)?这并不是说政府消息来源不能有偏见。
- 是学术论文吗?同行评审的来源通常很好,但您也必须小心那里可能存在的偏见。
- 它是一个倡导团体还是一个“智囊团”?就其基础数据而言,这些不一定是坏事。他们的问题通常在于他们对报告中数据的“旋转”,他们关注的事情和他们忽略的事情。你总是要考虑“他们的角度是什么?”这个问题。
- 是民意调查公司吗?这些结果可能很有用,但它们也有很多变化,尤其是在进行赞助投票时。你必须仔细考虑他们如何表达问题,他们选择检查的主题,诸如此类。
他们是否透露了他们的数据来源?
- 如果他们不解释他们是如何获得数据的,它可能不是很可靠。事实上,它甚至可能是由数据组成的。
- 您能否访问他们的数据或他们使用的来源。如果是这样,那么检查一下是个好主意。
- 有时,次要资源有很长的来源链,它们所依赖的资源链很长,当你深入了解它时,那里并不多,或者它不是你想象的那样。
数据是否最新且与您的需求相关?
- 如果数据过去太远,它可能没有用,甚至可能会产生误导。1975 年关于人们对苏联态度的民意调查可能对当今人们对俄罗斯的态度没有多少信息。
- 也就是说,你可能会在很长一段时间内将一堆二手调查结果放在一起,这可能很有趣(例如,当苏联解体时,人们对俄罗斯的态度是否发生了变化,或者它们是否“具有粘性”)。因此,旧数据仍然可以有洞察力。如果它是关于本质上是时间不变的东西,则尤其如此。
- 但是,二手数据应该与您感兴趣的问题相关。因此,您必须再次仔细考虑二手数据的真正含义。
- 是在您感兴趣的分析单位上吗?例如,如果您对城市级别的数据感兴趣,那么州或省级别的辅助数据可能并不真正适合您的需求,尽管它可能很适合使用。所以,提防诸如生态谬误之类的事情。
但总的来说,如果仔细考虑,二手数据可能非常有用。
例如,我正在研究国家层面的强制性口罩法对 Covid 率的影响。我的主要来源是一个非常正面的面具网站,以获取有关面具法律的数据和 Covid 相关数据的 GitHub 存储库。
我认为口罩阳性网站是一个可靠的信息来源,目的是了解哪些国家/地区制定了口罩法以及何时通过了这些法律。至于 GitHub 数据,是约翰霍普金斯大学出品的,所以这是一个非常可靠的来源。但即便如此,我发现最好从其他来源(例如有关口罩法的政府网站)抽查一些数据点。
因此,正如戈尔巴乔夫不久前所说,这个故事的寓意是“信任但要验证”。但是,绝对可以从二手资料中获得一些声明。
本站所有相关知识仅供大家参考、学习之用,部分来源于互联网,其版权均归原作者及网站所有,如无意侵犯您的权利,请与小编联系,我们将会在第一时间核实并给予反馈。