大数据的理解,大数据是什么,大数据能干什么?

2024-06-07 19:08
文章标签 数据 理解 干什么

本文主要是介绍大数据的理解,大数据是什么,大数据能干什么?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、概念: · 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。 大数据的本质就是一大堆结构化的和非结构化的数据。因为数据量太大,你没办法使用,你需要从中抓取出有价值的内容或你想要的数据,这就是大数据应用。 老程序都知道,我们做企业级的项目(数据库项目)时,都会有数据的存储,而且会做出很多图表,为决策者进行科学地决策提供了客观依据,为每个工作者从数据中发现问题,做进一步改进提供了依据,当然也有即时变动的数据展示位动态图表。 1)、超市管理系统,也会把每年的数据进行汇总,对比每个月的销量,以了解淡旺季,帮助做下一步的应对策略;把不同类型的商品进行汇总,对比哪个商品卖得多,哪个商品收益高;哪个商品在哪个时间段卖得快等等。当然,如果有会员的话,甚至可以统计出不同年龄段,不同性别的不同喜好等等。 2)、石油行业的进销存系统,会统计哪个加油站的销量好,哪种型号的销量好。 3)、在HIS(医院信息管理)系统里,会统计哪个科室的患者多,哪个医生的挂号量大,哪个医疗设备的使用频度高,哪个病种多,甚至哪个年龄段得哪种类型病的数量多,甚至哪个地区的人患哪种病的概率高。在很多研究型医院里,还可以通过大量数据得出什么类型的细菌是导致某种病的主因等等。 随着时间的推移,数据的积累,随着社会节奏的变化,使用信息化系统的人越来越多,数据积累的速度越来越快,数据也越来越庞大。当规模大到在获取数据,存储数据,管理数据,分析数据方面大大超过了传统数据库软件工具能力范围的数据集合,并且数据的价值越来越大,针对数据的处理就需要专门的企业或者人员来完成,这就是现在大数据(当然,大数据的内涵远远不是这一两句话能够说清楚的)。 你可以简单理解为:以前那是小数据,现在是大数据,哈哈! 从技术层面说,大数据和以前的数据时代("小数据")的最大差异在于: 以前是数据找应用、算法的过程,偏重于用抽样推测全局,从抽样数据中分析,没有采集到的样本所对应的相关规律。 而大数据时代的重要技术特征之一,是应用、算法去找数据的过程,因为数据规模变成了技术上最大的挑战,我们更关注每一个个体的微观表现 二、应用场景举例: 应用场景能够体现出大数据的价值 我的博客中也有一些关于大数据应用场景的故事: https://blog.csdn.net/jiang7701037/article/details/81041692 1)、超市管理系统: 除了传统的数据汇总对比外,现在还需要对数据做进一步的挖掘,如:根据大量的数据能够的得出 (啤酒与尿布的故事)买了某种商品的人同时还会买另外一种商品,这样超市就会尽量把这两种商品的摆放位置靠近,以方便客户进行购买(这是为了商场商品摆放提供了依据) 电子商务平台上更是对数据的汇总更加有说服力,比如:淘宝,这个平台“太可怕”了,他可以统计出南北方地区不同省份人群的特点,比如:不同省份人员的网购量,哪个性别,哪个年龄段购买最多,甚至根据衣服的尺码都知道哪个省份人员的身高情况,那个人省份人员喜欢什么颜色的衣服,噢,还有内衣,根据内衣,你都知道哪个省份女性的罩杯大小…… 你在京东买了奶瓶又搜索过奶粉,那京东的大数据就预测到你可能有小宝宝了,接下来一大堆和婴儿有关的东西都推荐给你。你可能说这就是大数据啊,也太简单了。其实如果京东仅服务你一个人,那简单,但是京东对几亿用户(大数据)都能做这个推广,就不简单。 这是商业公司对消费者日常的购买行为和使用商品习惯进行汇总和分析,了解到消费者的需求,从而改进已有商品并适时推出新的、消费者很可能会满意的商品的体现 2)、石油行业的进销存系统,著名的“魔镜”预知石油市场走向,“魔镜”帮助中石等企业分析数据,将数据可视化,使企业科学的判断、决策,节约成本,合理配置资源,提高了收益。 3)、在HIS(医院信息管理)系统里特别是医学研究上。 大数据改变医学诊断手段 大数据分析为许多医学难题的解决提供了新途径,改变了一些疾病诊断方式。大数据可以挖掘出大量以往的相似疾病案例,通过分析这些诊断数据,对疑难杂症进行快速判别。如,在心脏病的诊断过程中,首先采集心脏数据并转化为心脏图谱,然后根据图谱进行建模,模型中的变量包括压力、张力、僵硬度等,最后根据这个模型分析心脏疾病病情,并作出相应的诊疗方案。此外,还可以利用图像处理技术,将心脏数据建模成为一个虚拟实体,通过设置不同的参数,模拟观察各类手术或者药物对心脏机能造成的影响,从而在诊疗之前就对诊疗后心脏疾病可能的走势做出预测,为获取疾病诊治方法提供了手段。 大数据可预测病情的扩散趋势 当流行病发生时,可以对疾病已有的扩散趋势和感染人数进行建模,对每一个时间节点的数据进行分析处理,从而对流行病进行统计研究,预测病情的扩散趋势,为疾病防治提供参考。同时,当下一次疫情发生时,可以调出往年数据进行分析,了解规律,从而有望抑制病情的进一步扩张。 …… 疾病预防、临床应用、互联网医疗等等 4)、做搜索引擎的百度和谷歌更是可怕,他保存着所有互联网用户搜索的关键词。用户搜索的关键词就代表着他所关心的话题,如:最近搜索it的培训的比较多,说明了什么,最近搜索web前端培训的比较多说明了什么,最近搜索如何预防流感,得了流感怎么办,怎么才能知道自己得了流感等等,这说明了流感的季节到来,担心的流感的人很多,还有可能得到的流感的人数占比和速度…… 5)、交通: 实时路况给人们出行选择带来的方便。交通拥堵的原因分析,并结合车辆购买的增长情况,决定修路的节奏把握(如:什么路段需要修路,什么路段需要优先修路,要不要单行等等),根据大数据的全样本体现的高峰期更有说服力,并制定一系列的对策等等。 三、大数据能做什么? 预测,决策,为机器学习和人工智能提供支撑 预测从古代就做了,但是大数据做预测的核心是全样本,多个维度的全样本,交叉确认,人会说谎,在社交场合会隐藏部分内心,但这部分内心在日积月累的互联网上总有丝竹马迹会留下来,所以,越来越多的数据模型和数据会给出无限接近感知的结果。也就是可以让计算机具有学习能力,机器学习就是设计一个一些让计算机可以自动学习的算法,人工智能的核心是什么?归根到底是“计算机用大数据在代替人脑来思考;计算机可能比人脑思考的更全面和迅速 当然大数据的应用,不是一篇文章,简单举个例子就能说明白的,现在是数据为王的时代,我们现在才真正开始体会“数据最有说服力"的魅力所在,我认为,数据的作用待开发的地方太多了,数据的作用,未来不可限量,没法预测,也不敢预测,只能期待。我想未来大量的数据真的是一件“可怕”的事情,人类还需要把这些数据应用在生产上,否则,会带来灾难性的结果。 --------------------- 本文来自 田江 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/jiang7701037/article/details/81042454?utm_source=copy

这篇关于大数据的理解,大数据是什么,大数据能干什么?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1040044

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言