数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

第四讲 王小乔数据采集的意义:大数据与数据新闻嘉宾介绍:王小乔,DT财经主编。

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

今天我们课程的主题是进入大数据时代之后,如何用数据来挖掘新闻以及热点话题。

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

视频加载中…

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

大数据改变新闻生产的方式下面这张图的制作背景是2015年的8月12号,天津大爆炸发生的时候,当时我们用工具调取了前后十天的阿里巴巴几个平台上的相关商品的销售数据,包括外卖、口罩、空气净化器,还有矿泉水。

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

图上可以很明显的看出来,在大爆炸发生之后的几天里,这几种商品发生了指数级的增长。

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

当时我们团队刚刚成立,也在怀疑,大数据在新闻业中是什么样的定位和地位。这张图让我们看到,大数据真的在直接地改变了新闻的生产要素。传统的五要素,五个W还加上一个H,现在Data也成了一个非常重要的新闻要素。

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

大数据改变人们看世界的方式再看这张图,两位德国的可视化设计师收集了纽约的城市共享单车数据,把使用者的路线轨迹制作成了动态地图,能够很清楚地看到城市的变化。

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

这张图是静态的,如果是动态,加上时间因素之后,可以非常清楚地观察到纽约的早晚高峰。摩拜也做过类似的动态地图,放在一起看就非常有意思了,可以看出几大全球超级城市因人流而带来的生态的变化。

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

大数据中蕴藏新的服务信息新闻除了提供信息之外,还有很重要的一个任务是给普通民众提供服务性信息,大数据在这里面能起到什么作用?

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

这张图是我们2016年12月份在雾霾季到来的时候做的选题。我们把2013年到2015年的40万条pm2.5的数据和每一个时间段的天气数据做了分析,最后生成了一份北京、上海、广州、沈阳、成都五个城市的数据图。灰色方格代表完全不应该跑步,浅绿色是较适宜跑步,深绿色是最安全的。

数据采集的意义-数据新闻大咖谈 | 王小乔:大数据与数据新闻

我们现在进入正题,我们作为新闻从业者,需要哪些思维和技术上的提升?

分别有四个方面:

第一,什么话题适合用数据来呈现?

第二,数据采集以及数据挖掘的基本方法,这个是以往的传统新闻采写过程当中所没有的。

第三,怎么看待以及使用交叉数据,究竟除了做新闻之外,还有没有一些更大的意义和价值?

第四,怎么去挖数据、可视化,这样的新闻报道形式和传统新闻报道相比有没有相同的方法论,还是有一些不同的方法论?

一、什么话题适合用数据呈现有感受,无量化

2016年的时候,罗永浩因为一连串的负面新闻被大家注意到,之后我们发现他自己在微博上并不活跃,很少去回应这些负面的问题。这和罗永浩以前的“网红”形象差别是非常大的。

这是一个很模糊的感受,并没有什么数据的支撑。于是我们扒了微博的数据。

有个案,无全貌

第二种非常适合用大数据呈现的新闻:有着非常丰富的个案,但是没有全局的数据。

比如“看病难”这个话题,各家媒体的报道非常多,但大多数都是从个案出发。在没有大数据的时候,没有办法看到全貌,医院之间的数据是没有联通的。当互联网挂号这种新的商业模式出现的时候,留存下来了大量数据,这就让我们可以从全局上用大数据的方式来看这个问题。

这张图呈现的是全国医院的挂号量,可以很清晰地看出来医疗资源的供需不平衡。

二、数据采集数据挖掘ABC挑选数据源的TOP3原则

确定好选题之后,我们就进入数据采集和挖掘阶段了,这阶段非常重要,做不好要返工,会耗费大量的人力物力精力。我们在实践中总结了一些ABC。

首先第一条,你采集的数据使用的数据源一定要是这个行业或者这个领域TOP3的数据源。这张图列出了我们曾经在文章当中使用过的数据源。

很多新闻界的同行都问过我一个问题:你怎么能确定这个数据它是真的还是假的?采访有一个基本原则,当你得到一个信息之后,需要三方认证,在做跟数据相关的工作的时候,毫无疑问是无法三方认证的,因为大多数的数据它就是留存在这一个公司。

那么难道因此而说数据有没有办法做新闻吗?我不这么认为。

其实换一个思维方式去看,如果这个数据源可以满足统计学意义上的科学性,那么它就可以成为一个非常重要的新闻采访资料。

数据采集远没有你想象中那么难

第二点,很多做新闻的人,会觉得数据采集非常难,然后自动就放弃了。其实数据采集真的没有你们想象中那么难。你不会代码,或者不愿意学代码,一样是可以去做数据采集和数据挖掘的。

现在已经有非常多的工具,不需要代码。比如说八爪鱼、火车头等。有了基本的代码思维之后,你就可以用这些工具去布置环境采集数据了。

采集数据时尽可能全量录入

我们的经验:数据一定要尽可能的全量录入。一个反面的例子,医院挂号那篇稿子最开始的时候没有扒全量数据,只扒了医院的预约人数,医院的名字、地点,没有扒详细的地理信息。结果到最后发现数据一团乱,完全没有办法去操作,最后不得不全面返工,补上地理位置信息。

大数据的思维就是在一开始的时候就获得尽可能多的数据维度,而这些维度的交叉最终一定会爆发出让你很多意想不到的效果。

三、交叉数据产生更大的价值我们在2016年10月份开启了一个专题研究报道,叫《地铁一公里》。我们发现它确实有巨大的公共价值、商业价值,同时还有可能进一步的促进数据源开放。

我们最初的想法是城市越来越大,当我们想更清晰地观察城市不同细分区域的发展的时候,地铁可能是一个非常好的观察数据的节点。

地铁是一个大城市上班族使用最多的交通工具,也是一个城市商业最先聚集的地方。我们通过对区域内不同维度的数据组合分析,通过交叉之后的指标,把这个区域的综合实力进行量化,然后来分级。

我们一一去联系这些数据方,希望他们带着他们的大数据一块加入到这个项目当中,当时得到一个很有趣的反馈,几家公司也互相想了解对方的数据,大家可以坐在一起来构建这个指标体系,这也让我们看到促进数据源开放的可能性。

这里有一些有趣的数据结论。上海在1999年和2016年分别有两次大的总体规划,1999年的时候确定了四个城市副中心,其中有两个在我们的评级体系里面,它的地铁站点已经到了六级,说明这两个站点已经是发展得非常好了。而另外两个叫真如和花木的地铁站在我们的评级里只到了二级和三级,事实上很多在上海工作的人也不知道这两个地方,说明当时希望发展起来的四个城市副中心有两个其实是没有发展起来的。这是回望过去的效果。

我们再来看有没有可能做一些预测,比如2016年的上海城市总体规划也列了几个重点发展区域,有虹桥和莘庄,虹桥和莘庄这两个站在我们的指标体系里已经是五级和六级的战点了。那么毫无疑问这两个站点附近一定是下一步上海最有可能先重点发展起来的区域,商业也好,或者是居民买房也好,就可以事先在这个地方来布局了。

我们也从中发现了商业的价值。比如说,上海的餐饮娱乐,最好的20个站点是左边这张图,我们看第20名——龙柏新村。龙柏新村虽然排在第20名,但是它其中有一个指标——KTV指标得分非常高。我们去了解了一下,龙柏新村是一个韩国人的居住聚集地,是不是韩国人特别爱K歌呢?好像是的。那么这个地方是不是适合发展一些韩国人需要的娱乐项目或是商业项目?当然我觉得是OK的,但是这个一定需要跟其他的指标相结合来看,这就是指标体系的功能。

四、可视化及成文的几个基本原则新编辑部的故事

记者向编辑报了选题,记者出去采访,把文字稿交给编辑,编辑编完之后交给美编上板,这是传统编辑部的故事。

当有了大数据、可视化等一系列因素之后,设计师、记者编辑,还有数据分析师,在选题一开始或相对开始的时候,就要一起介入到生产流程中,共同来完成选题。这就是新编辑部的故事。

可视化的目的是直观有料而非炫酷

可视化有一个很重要的基本原则:所有的可视化,最重要的目的是清晰直观,而不是为了炫酷。不要为了图形的炫酷而去伤害图形的信息。

我们看一看左边的这张图,这张图其实就是编辑和设计师共同脑爆出来的一个很优秀的范例。最终图片非常清晰地传递了我们想要表达的信息:中国的医疗资源分配极其不均匀,东部地区密集,西部地区资源匮乏。右边这张罗永浩的图也是达到了同样的效果。

背景、采访、数据都是文章的有机构成

数据新闻虽然加入了数据、可视化,但和传统新闻相比,它并没有原则上的大区别。

也就是说你在做新闻的过程当中,去查背景资料、做采访、收集数据、可视化,都应该是一篇新闻报道的有机组成部分。数据是海量的,就像你的采访资料、文字也是大量的,但文章的主旨必须是明确呈现给读者的,只能是精华。让数据和主题有效结合,需要非常大的定力。

往期课程:

数据新闻大咖谈|黄志敏:数据可视化入门

数据新闻大咖谈|黄志敏:数据新闻流程和案例分析

数据新闻大咖谈 | 戴玉:如何更有效地找到可靠数据

(整理:赵康帅)

本文来自网络,不代表唯米智能立场,转载请注明出处。如有侵权请联系删除。http://www.weiseo.cc/b/2977.html

作者: 小易

上一篇
下一篇
联系我们

联系我们

在线咨询: QQ交谈

邮箱: 2013723@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部
在线客服系统