300229 拓尔思
201211-30
微博在公共卫生领域的应用
发布时间:2012 -11-30
分享至:
分享

        近年来随着互联网的飞速发展,中国网民数量迅速增加。网络以其覆盖面广、传播速度快、交互性强的特点,已成为民意表达的重要渠道,成为舆情形成、传播和发展的重要媒介。如何监测网络舆情,发现危机事件端倪,防患于未然成为一个社会广泛关注的问题,在公共卫生领域,显得尤为重要。公共卫生领域的突发事件往往涉及生命安全,更具破坏性,若能及时发现,正确引导,妥善处理,则可最大限度保护人民群众的生命财产。

       流感以其传染性强,发病率高,容易引起暴发流行或大流行,且处理不当易造成较严重后果的特性,一直以来都是公共卫生管理的重点。本文以流感为例,以新浪微博中全部微博达人和身份认证用户所发原创微博为样本,选取与流感字段相关的感冒、发烧、发高烧、咳嗽、鼻涕、流感、输液、吊瓶、鼻塞、流涕作为检索关键词,监测2011010120121022之间的所有数据,展开多维度分析。

       本次监测数据总量为:2011615,449,910条微博,含上述关键词的2,858,212条微博;2012500,343,713条微博,含上述关键词的2,430,082条微博。分析中所用到结果值均做过归一化处理,即结果记录数/当天数据总量。

 

多维度分析

1、微博流感时间分布

       按照每日提取到的微博流感相关用户数,画出下面时间趋势图:

  

1、微博流感时间分布图

       图1中纵轴为每日微博中提到流感相关关键词的微博人数,横轴为日期(图中横、纵轴说明下同),跨度为201101月到201210月。从图1中可以看出9月中旬开始到年底为秋季流感多发季节,3、4月为春季流感多发季节。把其中部分日期段(2012.05.05-2012.06.30)放大,如下所示:

  

2、微博流感分析2012.05.05-2012.06.30时间趋势图

        从图2中微博用户数曲线可以看出微博用户流感现象很有规律,以一周七天为一个周期,曲线普遍在周末(周居多)达到一周的波谷,而在周初(周二居多)达到一周的波峰。

2011年与2012年曲线叠加后,得到如下时间趋势图:

  

3、微博流感整年时间趋势图

         从图3中可以看出:

  ◆ 201201月份流感强度没有2011年同期强,但02月下旬和03月较2011年强,但峰值有所回落;

  ◆ 2012年秋季流感爆发点比2011年提前1周,2011年是09202012年是0914

  ◆ 2012年秋季流感趋势目前平稳,没有大规模爆发迹象,今后将维持高位运行,爆发峰值逐步推高。

  

2、微博流感性别分布

  

4、微博流感博主性别整年时间趋势图

        根据微博博主的性别属性可以做性别分析,如图4所示,微博流感中博主为男性和女性感染流感时间曲线走势大体一致,但是博主为女性的感染流感波动幅度要大于男性(女性的方差为566269,男性的方差为192544)。图4中女性的权值高于男性,是因为微博中标注为女性的博主更多。

  

3、微博流感地域分布

  

5、微博流感博主在北京整年时间趋势图

        根据博主的地域属性可以做地域分析,我们以北京为例,如图5所示,北京发生流感的高峰期在冬季,以每年的一月中下旬为甚。北京201201月流感强度明显低于2011年同期,201203月则高于2011年同期,2012年秋季流感较2011年提前。

        类似地,我们提取出全国其余省市的数据,并可以画出微博流感的全国地域分布图。以冬季(2012.02.01)和夏季(2012.06.01)为例作对比。全国大多省市在冬季都为流感高发季节,相对来说北方省市较南方更易发生流感;而每年的夏季则是流感少发季节,相对来说,南方省市较北方更易发生流感。

  

冬季(2012.02.01                                                                         夏季(2012.06.01

6、微博流感全国地域冬季和夏季分布图

  

4、微博流感比较分析

       为验证从微博中提取流感数据的准确性,我们以百度指数作为验证,在百度指数中查“感冒”后,与前面的微博流感时间趋势图可得到下面对比图。

  

7、微博流感时间趋势和百度“感冒”指数对比图

        从对比图中可以看出,百度“感冒”指数和微博流感7日均线趋势重合度较好。前面的结论201201月份流感强度没有2011年同期强,但02月下旬和03月较去年强,查询天气预报得知,201203月气温环比提高2.5倍,而201012月中旬达到了10年来温度最低值。由此可见,流感和气温的变化密不可分,气温骤然变化,无论提高抑或下降,都易引发流感。

       现实环境里,微博数据取样有一定的误差,比如微博用户只是部分人群、流感关键词检索不准、微博用户性别和地域属性标识错误等,但如果数据量足够大的话,这些误差的影响是很小的,可以忽略不计。

       除了可以从上述博主发帖的时间维度、博主性别维度、博主地域维度进行分析外,我们还可以从博主的年龄阶段、博主的行业属性进行类似分析;并且可以对提到的微博内容进行词频统计,分拆出哪些关键词是用户最易提到的、热词的变化趋势、有无新的热词出现;上述分析维度的交叉分析等等。

       微博流感分析可以较真实地反映当前社会流感人数、地域分布、性别分布,因此可以在一定程度上预警流感的爆发,当检测到某一区域流感人数连续明显有别于其它区域和该区域历史数据时,可作出流感即将爆发预警。由此可见,对微博进行实时动态监测,及时发现网络上与公共卫生相关的突发性事件和敏感舆情,第一时间进行危机预警,并对舆情信息进行持续跟踪,实现对公共卫生领域的有效掌控,将推动公共卫生事业良性快速发展。