搜索
取消

热门搜索

专题
首页  >  专题  >  环球科学  >  环球科学<前沿资讯>

大数据时代需要懂得如何问问题

来源:

导读:大数据时代已经到来,但是大量的数据有时并不能解决问题,真正的关键在于数据的来源和提出的问题。


关键词:大数据;数量;问题


大数据改变着现科学研究的方法。从传统意义上来说,数据是由科学家通过测量、显微镜或调查报告手工搜集的。这些数据借由人工或是电脑上简单的统计软件进行分析。
而这一切都被大数据改变了。现在,浩如烟海般的数据通过新兴科技产生和收集,这些科技可能是大型的望远镜阵列,DNA测序仪或是脸书(Facebook)。
比如想想一下脸书上每小时的点击量或是谷歌每日搜索量,不难发现这些数据不仅数量巨大,数据种类和形式也同样是新的。最终,大数据使得科学家能够进行更强大的数据分析,或是开拓全新的研究疆域。
而问题在于大数据还并没有改变研究者提出科学问题的方式。尤其在生物领域,基因序列这个常用工具能够产生海量的数据,但生物学家所问的问题可能大数据并不能告知。
问题
问问题就是科学家做的事情。生物学家的问题是关于我们生存的世界的,比如说“世界上有多少物种?”或者“老鼠、蝙蝠和灵长类动物在进化中的关系是怎样的?”。
问问题的方式其实显示了提问者所使用的信息类型。比如,像我这样的系统学家通过进化史来研究许多物种之间的多样性和关系。
我们趋向于使用生理特征,比如牙齿和骨头,以此将哺乳动物分门别类。这些共同的特性使得我们更容易辨认出新物种和已存在物种。
伴随着大数据时代的到来以及廉价DNA序列科技的出现,现在的系统学家可以接触到新形式的信息,比如整个基因组,而这彻底改变了系统学的研究方式。但是,这并没有改变系统学家问问题的方式。
生物学家希望从大数据中获得突破性发现,然而,他们发现这些数据并没有深意,只是对应收集信息的方式而已。比起找到这些数据的限制在哪里以及如何提出自己的问题,许多生物学家宁愿以搜集更多的数据来应对。简单来说,科学家被数据的数量所欺骗了。


数量重要
通常,数量作为成功的一个衡量标准。数据越多,你研究的内容就越好。
这一想法来源于完整且无偏差数据库样本的理想视角。统计学家称这为“N=全部”,即包含所有信息的数据集。
如果所有数据都能够获得,那么科学家就不会面对遗失或损坏数据的问题了。比如,完整的基因组序列就是一个现实生活中的例子。
如果有全部的数据,我们就可以知晓一切,是吗?并不完全是。
从2004年至2006年,J. Craig Venter带领一支队伍在北大西洋的海水中找寻基因组样本。结果,他发现了1800个物种。
让我们慢慢想一想。事实上,他发现了数以千计的独特基因组,但是判定是否是新物种需要Venter和他的团队对比和诊断每一个有机体,甚至乎给它们命名。
因此,这个问题的答案:“这片海域中有多少物种?”大数据告诉我们有10.45亿个基本对。但是这一数字并不能代表物种的数量。
数量并不重要,而是我们想从数据中获得何种信息才重要。


错误的问题
提出不可能的疑问成为许多研究领域内大数据的症结所在。比如,谷歌发起的流感趋势预测,可以比疾病预防控制中心(CDC)提早几周,但却无法避免地问出传统问题:“流感下一次将于何时席卷北美呢?”
被分析的数据是非传统类型的,比如说,谷歌搜索条目的数量和频次。对比谷歌和疾病预防控制中心的数据,可以发现谷歌的预测漏掉了2009年的流感爆发,而在2012-2013年间预测的流感爆发次数多了一倍。
在2013年,由于谷歌流感预测无法回答人们所提出的问题而被抛弃。一些统计学家批评样本具有偏差,另一些则批判谷歌的搜索条目缺乏透明性。另一些人则认为理由仅仅是,由于搜集到的数据是非传统数据,那么提出这个的问题是不合理的。
大数据遭到了误解,而这限制了我们发现有意义答案的能力。大数据并不是传统方式和问题的替代品。相反,它是一种补充。
生物学家需要调整利用大数据的问题。不像传统数据,大数据并不能就传统框架下的问题提供简明扼要的答案。
相反,大数据让科学家们走上了另一条重大发现的道路。大数据和传统数据同时使用可以让生物学家在发现之路上更好地探寻。
如果Venter采取下一步并检验了这些海洋生物,那么我们可以拥有具有历史性意义的发现。如果在谷歌上搜索流感趋势时自问:“谷歌搜索中这些频率和数字告诉我们什么呢?”,那么我们将会有更大的发现。
随着大数据逐渐被纳入现在科学研究方式,我们也需要合适的问题。只有到了那个时候,生物学家才不会陷入错误问题的不可能答案之中而无法自拔。


(翻译:张栎文;审校:张玲)


原文链接:
https://theconversation.com/size-doesnt-matter-in-big-data-its-what-you-ask-of-it-that-counts-55571



特别声明:本文转载仅仅是出于科普传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或其它相关事宜,请与我们接洽。
[责任编辑:系统管理员]
 收藏:0
分享到:
文章排行榜
©2011-2017 版权所有:中国数字科技馆
未经书面许可任何人不得复制或镜像
京ICP备11000850号 京公网安备110105007388号
信息网络传播视听节目许可证0111611号
国家科技基础条件平台