本文主要是介绍数据纪实|沈阳:舆论分析刻不容缓,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
来源:硬科技城邦
指导单位|清华大学学生大数据研究协会
本文约3500字,建议阅读7分钟。
本文为大家带来关于新冠肺炎的一手采访和报道。
面对一个全世界受到生命威胁的传染疾病,面对一场全中国需要紧急封闭的疫情危机,科学家们没有选择恐惧武汉,没有选择指责疫区同胞,他们团结起来,用科技救国,用科技救人。
这一役实际是对中国科技能力的全新考验,我们在特殊的日子里,从如何用科技辅助疫情控制的角度,为大家带来关于新冠肺炎的一手采访和报道。
讲述最真实的科技救民救国故事,记录中国科技工作者在危难关头,临危不惧,众志成城。
本期嘉宾
沈阳
清华大学新闻学院教授、博士生导师,主要研究方向:大数据、新媒体、网络舆论。
发表论文约一百一十篇,软件著作权和专利数十项,设计的大数据平台用户超百万,每日数据过亿条。是中宣部“文化名家”暨“四个一批”入选者,也是教育部新世纪人才计划入选者。
此次疫情中,利用大数据+人工智能+新媒体+网络舆论这“四点交叉”的方法分析公开数据,从而挖掘有效信息,为疫情防控救治提供支持。
背景
在缅甸参加完由中国外文局主办的中缅智库对话会之后,清华大学新闻学院教授沈阳于1月18号在网上关注到了新型冠状病毒(2019-nCoV)肺炎的相关舆论,经初步分析事态,他决定将过年回武汉的票退掉,同时改成去往浙江来度过鼠年的春节。
随着情况的加重导致武汉开始了封城,沈阳在大量阅读疫情信息之后,意识到了事态的愈发严峻。因为研究团队成员平时所在地主要在北京,所以经过思考决定迅速动身返回北京开启分析工作。他采用数据分析的方法分析了近期的高铁车次数据,最终确定了一列回北京人数最少的高铁,上车后发现车厢中只有他们一家三口在1月27日回到了北京。
雷火志愿者
回北京后迅速汇集人员,先调配一部分成员用于研发推广此次的大数据实用工具,包括同程查询、谣言分析、医疗物资查询等,期间使用人次达到200万以上。截至专访期间,团队全体成员已经恢复了线上办公。
当事态进一步恶化,沈阳又发挥社交媒体及互联网的力量,在微博上组建了900多人规模的志愿者团队并取名为雷火志愿者。通过逐步实现数据化管理加上应用大数据工具及数据方法,推进各类数据结构化存储的有序进行。
雷火志愿者于2月13日纳入北京网络志愿服务总队管理,将为阻击疫情做出更多努力。
雷火明书
志愿者们从30号开始汇总内容,每天进行一次内容迭代更新,截至目前已经完成每天200多页信息整理。将免费提供给政府决策者、企业、互联网媒体界报道者以及新闻记者来进行查看和取阅,同时研发了用于学术目的的网络舆情数据免费分享计划,供学术共同体内的科学研究者们参考。
雷火救援
在半个多月的时间里,雷火志愿者们通过梳理网上求助的互动信息,第一时间确认事实真伪,进行实时互动联系,再具体登记到患者的小区和街道。每日统一整理信息并报送至前线媒体和各个社区,并由专人进行跟进和回访,目前已经实现多例真实的救助案例:电话或微博回访1578人,协助联系救助或抚慰病患者476人。
2018年2月6日,沈阳老师做客本期专访,详细阐述了现阶段已经完成的几项工作:开发并推广防疫大数据工具、公开研究成果及网络救助、撰写舆论参考报告。并对此次访谈的相关问题进行了精彩回答。以下为访谈全文:
少一些依赖传统手段,
要学会找到敏感传播节点
1.此次新冠肺炎疫情分析的数据信息都来自于哪里?是如何进行采集和核实的?是否有做未来走势预测?
A 首先通过全网公开平台集合搜索现有的:微博、微信、论坛、贴吧、短视频等,大约每天1.2亿条相关信息。本次应用了混合智能的方法,即多信源采证+人工分析。比如通过软件自动分析评论,再用人工致电回访网络救助信息,或者人工判断信息的准确性,从而降低志愿者工作的难度和规范相关的流程。
有几个数据或情况对于未来走势很关键:一是近期医护人员感染率,这代表近期一线的作战阻击救治能力;二是物流快递人员的情况,这代表社会运转的正常可能性;三是复工潮后新发的非湖北的病例。我们团队数理预测组今天按照近十个特殊属性调整做了多套可能性预测。
2.你们在做分析的时候,是只用了官方发布的数据还是也结合了实际情况?
A 我采用的是自己的推算方法来测算感染人数。通过统计武汉市所有的住宅小区数量,以及对重点病例小区进行采样和分析,其实是可以大概推算出感染人数总量的。
3.人人都可以当记者,都可以发布信息的时代,您对新闻受众们有什么提醒?
A 我个人获取准确信息的途径是:看朋友圈里的记者或当事人好友们的内容。这里面有一个我摸索出来的方法供大家参考,我会看每一位微信好友的信息价值增量和独特度,然后选择是否关闭他的朋友圈。这样接纳的信息会优质很多,并且尽量直接联络当事人,少一些依赖于传统媒体和微博。要学会找到敏感传播节点,从而获得更多有效的信息。
信源可信度能通过
历史信任度积累大致评级出来
4.网上流传的信息其实很多是被二次甚至三次篡改过的,在处理复杂的内容信息大数据时,你们是怎么进行收录的?有没有一个内部的验证漏斗或者模型?
A 虚假新闻分析有一整套算法原理,去年我们的研究拿了北京智源研究院虚假新闻判别比赛的第一名。
这里面涉及到伪造、篡改等综合数据模型,有几个重要的原则:
发布信息的信源可信度。
拿权威度举例子,大领域专家就没有细分领域专家可信;媒体也有真实度排名,哪一家是真实声音更多的,哪一家有信源采证的,通过历史信任度积累都可以大致的评级出来。
多方舆论博弈进行快速过滤。
比如有很多网友质疑了一个说法,爬虫就会马上抓取赞成和反对意见来进行分析。
网络类似信息主题特征词分析。
这些模型还需要简化并加以人工的判断,有时在增量信息中的时间差导致的虚假新闻也需要判断。
5. 短时频平台有为你们提供专业通道吗?对视频内容的机器理解会更复杂于自然语言处理,那你们是如何进行处理的?
A 没有,我们是自己爬虫获取的。我们分析的大数据内容每天大概1.2亿条左右,但当前我们团队的算力达不到对所有短视频本身做出分析。而且标注的成本很高,去年找了几百位兼职人员来做标注。后期的确文本、视频、图片分析都要做,但是整体工程量目前还是偏大。所以当前也正在与互联网公司探讨共同推进算力的支撑计划。
大数据的本质是每年的认知在提升,
要持续提升团队的洞察力
6.这次新型肺炎的舆论爆发非常迅速,和以往做过的工作相比有哪些的不同之处呢?
A 其实原来就比较习惯远程会议,唯一的障碍是2月3日开始恢复在线办公以来,钉钉软件卡的比较严重,每天都要耗费半个小时左右来调式这个状况。此次中国电信的天翼云会议也为我们提供了能开300人会议的平台,我们后来更是寻找了一些冷门而且并不常用的线上会议协同软件,这才开始了正常的远程办公。
7.这是您第一次做危机时刻的舆情数据分析吗?
A 是的,这是我第一次做公共卫生紧急事件的分析,未来刚好计划往产业大数据的方向去转型。正如我去年一个项目的方向是机器人产业大数据,这也是2020年的工作重点,当前也是逼迫我自己做一个转型。
务必要防止由于疫情所导致的
国际产业链的重新分工
8.是否有关于预测性情报(Anticipatory Intelligence)领域的研究?比如网络安全预测、人工智能安全、政治与社会危机等方向。中国公司和各个智库目前在这项工作上的进展如何?您个人呢?
A 我的副教授是计算机学科,正教授是信息管理和新闻传播。关注着预测、预警、预防,“三预”大数据需要综合学科知识的各尽其责。互联网公司架构比较柔性,能快速反应;学者的理论性比较强,有更多指导意义。二者结合起来,我们在与互联网公司进行合作,强化“三预”大数据研究。
大数据的本质是每年的认知在提升,优势就是需要持续提升团队的洞察力,这就是核心。人类认知世界是有极限值和边界的,想要探索宇宙就是要思考这些,并且突破这些。
9.目前不仅在中国境内疫情严重,国外也发现了相同的病情案例。在国外的社交网站上wuhanvirus也变成了一个关键词,在针对世界范围的舆情进行分析时,您发现哪些方面最值得关注?
A
1、航空等交通中断问题。
2、限制入境问题。
3、密切关注生产制造企业重新布置产业链的问题。
因为其它国家并不会因为中国停工了就选择等待,它会想办法到别的国家去购买以及获取。这些客户一旦流失之后很可能就不会再回来,所以务必要防止由于疫情所导致的国际产业链的重新分工。
比如口罩也已经开始重新分工,国际汽车制造业也在慢慢重新调整布局,这个也需要重点关注。
10.在网络上可以查看到近期的话题热度指数排名,比如口罩和远程办公等话题的关注度较高。那在这个层面,你们是否有对城市和农村进行区别分析?
A 农村分析信息源的平台主要在快手和社区,加上志愿者的电话访谈,主要是采用人工的方法。而分析城市的时候使用微博等平台就可以。值得一提的是对老人的相关信息分析,也一样经历了从传统的广播电视渠道,逐步演变成如今的互联网及微信等社交媒体使用习惯的迭代更新。
编辑:于腾凯
校对:林亦霖
这篇关于数据纪实|沈阳:舆论分析刻不容缓的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!