数据纪实|沈阳:舆论分析刻不容缓

2023-10-15 09:10

本文主要是介绍数据纪实|沈阳:舆论分析刻不容缓,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


来源:硬科技城邦

指导单位|清华大学学生大数据研究协会

本文约3500字,建议阅读7分钟。

本文为大家带来关于新冠肺炎的一手采访和报道。

面对一个全世界受到生命威胁的传染疾病,面对一场全中国需要紧急封闭的疫情危机,科学家们没有选择恐惧武汉,没有选择指责疫区同胞,他们团结起来,用科技救国,用科技救人。

这一役实际是对中国科技能力的全新考验,我们在特殊的日子里,从如何用科技辅助疫情控制的角度,为大家带来关于新冠肺炎的一手采访和报道。

讲述最真实的科技救民救国故事,记录中国科技工作者在危难关头,临危不惧,众志成城。

本期嘉宾

沈阳 

清华大学新闻学院教授、博士生导师,主要研究方向:大数据、新媒体、网络舆论。

发表论文约一百一十篇,软件著作权和专利数十项,设计的大数据平台用户超百万,每日数据过亿条。是中宣部“文化名家”暨“四个一批”入选者,也是教育部新世纪人才计划入选者。

 

此次疫情中,利用大数据+人工智能+新媒体+网络舆论这“四点交叉”的方法分析公开数据,从而挖掘有效信息,为疫情防控救治提供支持。

背景

在缅甸参加完由中国外文局主办的中缅智库对话会之后,清华大学新闻学院教授沈阳于1月18号在网上关注到了新型冠状病毒(2019-nCoV)肺炎的相关舆论,经初步分析事态,他决定将过年回武汉的票退掉,同时改成去往浙江来度过鼠年的春节。

 

随着情况的加重导致武汉开始了封城,沈阳在大量阅读疫情信息之后,意识到了事态的愈发严峻。因为研究团队成员平时所在地主要在北京,所以经过思考决定迅速动身返回北京开启分析工作。他采用数据分析的方法分析了近期的高铁车次数据,最终确定了一列回北京人数最少的高铁,上车后发现车厢中只有他们一家三口在1月27日回到了北京。

 

雷火志愿者

回北京后迅速汇集人员,先调配一部分成员用于研发推广此次的大数据实用工具,包括同程查询、谣言分析、医疗物资查询等,期间使用人次达到200万以上。截至专访期间,团队全体成员已经恢复了线上办公。

当事态进一步恶化,沈阳又发挥社交媒体及互联网的力量,在微博上组建了900多人规模的志愿者团队并取名为雷火志愿者。通过逐步实现数据化管理加上应用大数据工具及数据方法,推进各类数据结构化存储的有序进行。

雷火志愿者于2月13日纳入北京网络志愿服务总队管理,将为阻击疫情做出更多努力。

 

雷火明书

志愿者们从30号开始汇总内容,每天进行一次内容迭代更新,截至目前已经完成每天200多页信息整理。将免费提供给政府决策者、企业、互联网媒体界报道者以及新闻记者来进行查看和取阅,同时研发了用于学术目的的网络舆情数据免费分享计划,供学术共同体内的科学研究者们参考。

 

雷火救援

在半个多月的时间里,雷火志愿者们通过梳理网上求助的互动信息,第一时间确认事实真伪,进行实时互动联系,再具体登记到患者的小区和街道。每日统一整理信息并报送至前线媒体和各个社区,并由专人进行跟进和回访,目前已经实现多例真实的救助案例:电话或微博回访1578人,协助联系救助或抚慰病患者476人。

2018年2月6日,沈阳老师做客本期专访,详细阐述了现阶段已经完成的几项工作:开发并推广防疫大数据工具、公开研究成果及网络救助、撰写舆论参考报告。并对此次访谈的相关问题进行了精彩回答。以下为访谈全文:

少一些依赖传统手段,

要学会找到敏感传播节点

1.此次新冠肺炎疫情分析的数据信息都来自于哪里?是如何进行采集和核实的?是否有做未来走势预测?

A 首先通过全网公开平台集合搜索现有的:微博、微信、论坛、贴吧、短视频等,大约每天1.2亿条相关信息。本次应用了混合智能的方法,即多信源采证+人工分析。比如通过软件自动分析评论,再用人工致电回访网络救助信息,或者人工判断信息的准确性,从而降低志愿者工作的难度和规范相关的流程。

有几个数据或情况对于未来走势很关键:一是近期医护人员感染率,这代表近期一线的作战阻击救治能力;二是物流快递人员的情况,这代表社会运转的正常可能性;三是复工潮后新发的非湖北的病例。我们团队数理预测组今天按照近十个特殊属性调整做了多套可能性预测。

2.你们在做分析的时候,是只用了官方发布的数据还是也结合了实际情况?

A 我采用的是自己的推算方法来测算感染人数。通过统计武汉市所有的住宅小区数量,以及对重点病例小区进行采样和分析,其实是可以大概推算出感染人数总量的。

3.人人都可以当记者,都可以发布信息的时代,您对新闻受众们有什么提醒?

A 我个人获取准确信息的途径是:看朋友圈里的记者或当事人好友们的内容。这里面有一个我摸索出来的方法供大家参考,我会看每一位微信好友的信息价值增量和独特度,然后选择是否关闭他的朋友圈。这样接纳的信息会优质很多,并且尽量直接联络当事人,少一些依赖于传统媒体和微博。要学会找到敏感传播节点,从而获得更多有效的信息。

信源可信度能通过

历史信任度积累大致评级出来

4.网上流传的信息其实很多是被二次甚至三次篡改过的,在处理复杂的内容信息大数据时,你们是怎么进行收录的?有没有一个内部的验证漏斗或者模型?

A 虚假新闻分析有一整套算法原理,去年我们的研究拿了北京智源研究院虚假新闻判别比赛的第一名。

这里面涉及到伪造、篡改等综合数据模型,有几个重要的原则:

  1. 发布信息的信源可信度。

    拿权威度举例子,大领域专家就没有细分领域专家可信;媒体也有真实度排名,哪一家是真实声音更多的,哪一家有信源采证的,通过历史信任度积累都可以大致的评级出来。

  2. 多方舆论博弈进行快速过滤。

    比如有很多网友质疑了一个说法,爬虫就会马上抓取赞成和反对意见来进行分析。

  3. 网络类似信息主题特征词分析。

    这些模型还需要简化并加以人工的判断,有时在增量信息中的时间差导致的虚假新闻也需要判断。

5.   短时频平台有为你们提供专业通道吗?对视频内容的机器理解会更复杂于自然语言处理,那你们是如何进行处理的?

A 没有,我们是自己爬虫获取的。我们分析的大数据内容每天大概1.2亿条左右,但当前我们团队的算力达不到对所有短视频本身做出分析。而且标注的成本很高,去年找了几百位兼职人员来做标注。后期的确文本、视频、图片分析都要做,但是整体工程量目前还是偏大。所以当前也正在与互联网公司探讨共同推进算力的支撑计划。

大数据的本质是每年的认知在提升,

要持续提升团队的洞察力

6.这次新型肺炎的舆论爆发非常迅速,和以往做过的工作相比有哪些的不同之处呢?

A 其实原来就比较习惯远程会议,唯一的障碍是2月3日开始恢复在线办公以来,钉钉软件卡的比较严重,每天都要耗费半个小时左右来调式这个状况。此次中国电信的天翼云会议也为我们提供了能开300人会议的平台,我们后来更是寻找了一些冷门而且并不常用的线上会议协同软件,这才开始了正常的远程办公。

7.这是您第一次做危机时刻的舆情数据分析吗?

A 是的,这是我第一次做公共卫生紧急事件的分析,未来刚好计划往产业大数据的方向去转型。正如我去年一个项目的方向是机器人产业大数据,这也是2020年的工作重点,当前也是逼迫我自己做一个转型。

务必要防止由于疫情所导致的

国际产业链的重新分工

8.是否有关于预测性情报(Anticipatory Intelligence)领域的研究?比如网络安全预测、人工智能安全、政治与社会危机等方向。中国公司和各个智库目前在这项工作上的进展如何?您个人呢?

A 我的副教授是计算机学科,正教授是信息管理和新闻传播。关注着预测、预警、预防,“三预”大数据需要综合学科知识的各尽其责。互联网公司架构比较柔性,能快速反应;学者的理论性比较强,有更多指导意义。二者结合起来,我们在与互联网公司进行合作,强化“三预”大数据研究。

大数据的本质是每年的认知在提升,优势就是需要持续提升团队的洞察力,这就是核心。人类认知世界是有极限值和边界的,想要探索宇宙就是要思考这些,并且突破这些。

9.目前不仅在中国境内疫情严重,国外也发现了相同的病情案例。在国外的社交网站上wuhanvirus也变成了一个关键词,在针对世界范围的舆情进行分析时,您发现哪些方面最值得关注?

1、航空等交通中断问题。

2、限制入境问题。

3、密切关注生产制造企业重新布置产业链的问题。

因为其它国家并不会因为中国停工了就选择等待,它会想办法到别的国家去购买以及获取。这些客户一旦流失之后很可能就不会再回来,所以务必要防止由于疫情所导致的国际产业链的重新分工。

比如口罩也已经开始重新分工,国际汽车制造业也在慢慢重新调整布局,这个也需要重点关注。

10.在网络上可以查看到近期的话题热度指数排名,比如口罩和远程办公等话题的关注度较高。那在这个层面,你们是否有对城市和农村进行区别分析?

A 农村分析信息源的平台主要在快手和社区,加上志愿者的电话访谈,主要是采用人工的方法。而分析城市的时候使用微博等平台就可以。值得一提的是对老人的相关信息分析,也一样经历了从传统的广播电视渠道,逐步演变成如今的互联网及微信等社交媒体使用习惯的迭代更新。

编辑:于腾凯

校对:林亦霖

这篇关于数据纪实|沈阳:舆论分析刻不容缓的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/216745

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav