东方国信:7个步骤让大数据开口说话

2023-10-28 11:30

本文主要是介绍东方国信:7个步骤让大数据开口说话,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章讲的是 东方国信:7个步骤让大数据开口说话“让数据开口说话”,并不是一件容易的事。如同人类要想开口说话,信息的输入、储存、加工、处理,最终把思想以一种合适的方式表达出来,需要经过一个复杂的化学反应过程。对计算机系统而言,要想让数据开口说话,也要经过一个复杂的电子信息处理过程。在数据量呈爆炸式增长,数据类型呈多样化表现,数据价值日益受到重视的大数据时代,这个过程会变得更加复杂,应用也会更加广泛。

  东方国信,一家坚持了18年自主研发之路的IT企业,正在试图通过一个完整的解决方案让大数据开口说话。

  2014年8月7日,东方国信在北京召开了一次产品发布会,公司董事长兼总经理管连平宣布推出针对各行业大数据的“端到端的完整解决方案”,囊括了多达20多种产品。我们知道,看似或零碎、或杂乱的数据,要想变成对企业业务有价值的决策参考信息或营销建议,需要经历数据采集、存储、处理、加工、管理、监控、分析、展现等多道工序。东方国信的这20多种产品几乎在每道工序上都有所涉及。

东方国信:7个步骤让大数据开口说话
▲东方国信大数据产品线

  如此布局,东方国信也要面对来自Oracle、IBM、SAP、Cloudera、EMC、SAS等多家国际巨头的竞争,因为这些厂商在上述工序已经有一些非常有代表性的全球领先产品。“直接对标国际巨头进行自主研发”,东方国信的信心来自哪里?

  “来自三个方面,一是针对大数据这种新技术,大家都在起步阶段,国内外的差距比较小,;二是中国的客户更看重高投资回报率,注重性价比;三是国际厂商的产品对中国市场的适应性不强,比如一些功能用不上,不适合中国本土用户的使用习惯,而国外厂商又很难改变产品策略。”东方国信规划咨询总监李云峰博士表示,“所以我们有底气进行自主研发。”

  下面,我们来看看东方国信的产品组合是如何一步步让那些枯燥的大数据开始说话的。根据李云峰博士的专题介绍,笔者将其归纳为7个步骤:

  第一步:数据采集

  把数据采集上来,这是首要基础,无论是网站的用户访问日志,运营商网络设备端口信息,银行的交易记录,高炉里的温度数据等等,只有采集起来,才有进行下一步的可能。东方国信提供的Dprobe大数据采集设备从网络接口采集数据,可以为运营商的智能管道应用、政府的网络安全监管等领域实现海量数据的实时采集,通过硬件加速和软件相结合的方式,可以实现单台设备每秒10G的采集速度,远远高于传统x86方案的每秒3G,而且功耗只有1/8,体积只有1/6。

  第二步:数据存储

  在硬件层面,根据不同应用环境对于计算能力和存储能力的不同要求,东方国信推出了三种大数据专用设备:计算存储均衡型、计算密集型和存储密集型。比如对于银行环境中身份证扫描图像这种非结构化数据的存储,由于容量大,业务流转过程中也需要在线存取,就需要一种高性比、可扩展的方案来支撑。

  第三步:数据处理

  今天对于大数据的存储和处理,一般会想到使用Hadoop技术。Hadoop也已发展成为继Linux之后最成功的开源软件之一,成本低廉,扩展灵活。但问题在于,这种原生于互联网生态环境中的技术,要想用到传统企业计算环境,却并非易事。开源的Hadoop之所以不能直接用于企业信息系统,就在于其需求、服务、研发和运维体系都不同于互联网应用,比如访问网页时允许一定程度上的出错和数据丢失,但在银行转帐时如果出错,其后果就可能是灾难性的了。据中科院计算所副研究员查礼博士介绍,要想在企业环境中使用Hadoop,必须满足几个条件:兼容关系模型和SQL语言,完善关系模型产品与Hadoop“混搭”的架构,增强系统运维和数据处理工具,软硬一体优化配置硬件效能,集成开源社区Hadoop最新版本等。

  对此,东方国信专门开发了面向企业环境的Hadoop发行版,在底层的数据压缩技术、行列混合数据存储、图形化运维管理工具等方面做了增强,使得这种源于互联网的大数据技术也能适用于传统企业环境。

  据李云峰介绍,东方国信还开发了MPP分布式数据库,融合了Hadoop平台和MPP架构的优势,满足从TB级到PB级的海量数据存储和分析。其价值在于,这些数据可以分布在数百台普通服务器上,并能够被大量并发用户高速访问,从而满足数据密集型行业日益增大的数据分析、挖掘、备份和即席查询的需求。

  第四步:数据加工

  数据加工的关键在于找到数据之间的关联性,这些零散的信息关联在一起才能产生价值。比如在运营商环境中的“用户画像”,就是把某个用户的上网行为数据、关系链、交易信息、搜索数据等关联在一起,才得以实现,进而可以为这个用户提供更精准的个性能服务。李云峰谈到,东方国信解决方案的核心点在于通过云化ETL(提取-转换-加载)平台实现了数据的统一规范,并可实现横向扩展,满足对PB级数据的加工处理。

  显然,统一数据管理对于拥有多家子公司、多个系统的企业来说更为关键,否则即便是一个最简单的KPI指标,从不同的系统调出来都会大相径庭,导致企业领导无法决策。通过ETL工具来整合这些来自不同“孤岛”系统的数据,经过转换、清洗等步骤,让数据具备了开口说话的能力。

  除了ETL工具,元数据管理工具则可以弄清楚数据的来源、含义、类型等,进一步提高数据质量。数据质量平台可以实现全生命周期的质量监控和审核,保障数据的完整性、准确性、一致性和及时性。正是通过数据的加工,进而让数据建模、数据分析挖掘成为可能,大数据也才能正常说话,而不是胡言乱语。

  第五步:数据分析

  数据分析的目的是在海量的数据中挖掘出有价值的信息。李云峰谈到,东方国信的探索式分析工具,可以将几十亿条明细数据用思维导图的方式进行分析,以更直观的丰富视图来展示结果,从而深入洞察数据之间的关联性及潜在影响。在这一方面,东方国信的首眼点是,速度要快,而且分析的结果要方便共享,以展现给不同需要的人。至此,大数据平台已经准备好了要说的内容了。

  第六步:数据展现

  数据分析出来的结果往往会用于决策参考或辅助营销。东方国信通过自助报表的方式来构建展现过程,允许业务端的用户在终端对数据进行存取和个性化展现,这可以理解为大数据说话时非常灵活的表达方式。其中三个最典型的应用是统计报表、即席查询、OLAP分析,比如按时间、地域来关联分析以找到有用的信息。

  当然,针对不同的人,大数据要说的话也是不一样的。以东方国信的一大重要客户中国联通为例,针对内部的公司高层、分析人员、一线客户经理,以及外部的行业客户、咨询机构,大数据平台所呈现出来的内容也是丰富多彩,各不相同。正是基于东方国信的个性化定制工具以及自助报表,使得大数据在中国联通获得了极为广泛的实际应用价值。

  第七步:移动应用

  在移动互联网时代,如果能把数据分析的结果推送到手机或iPad上面,显然会进一步提高业务效率。东方国信已经将自助分析能力扩展到了移动设备,方便用户快速的看到自己喜欢的各种分析图表。

  比如,中国联通位于各地的一些一线客户经理,可能之前的职业是幼儿园的老师、护士,甚至不会使用EXCEL表,而“掌上营销”这样一款应用,无疑是为她们配上了一个“贴身的分析师”,随时随地查看自己客户的动态,根据分析结果判断哪些客户可能会流失,哪些客户需要生日问候,从而更快速地采取行动。

  可见,“让大数据开口说话”,看似简单,却是个复杂的系统工程。不同于其他厂商针对于单一产品的发力,东方国信此次推出的是一站式的解决方案,涉及产品众多。其实在笔者看来,今天的大数据领域并不缺乏技术层面的创新,市场上已经有很多不错的产品或技术出现,但能用好的并不多,真正缺乏的是应用层面的创新和落地。东方国信的大数据产品线聚合了很多先进的技术,如Hadoop、ARM服务器、流式计算、数据建模、移动计算等等,但其生命力还在于跟电信、金融等各行业业务实践的深度结合。毕竟,一个人要想说话,光有嘴巴是不行的,还需要耳朵、脑袋……以及源源不断的信息输入。大数据系统要想发挥出自身的价值,实时、准确地说得有见地的话,亦然!


作者:洪钊峰

来源:IT168

原文链接:东方国信:7个步骤让大数据开口说话

这篇关于东方国信:7个步骤让大数据开口说话的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/292902

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

MySQL中删除重复数据SQL的三种写法

《MySQL中删除重复数据SQL的三种写法》:本文主要介绍MySQL中删除重复数据SQL的三种写法,文中通过代码示例讲解的非常详细,对大家的学习或工作有一定的帮助,需要的朋友可以参考下... 目录方法一:使用 left join + 子查询删除重复数据(推荐)方法二:创建临时表(需分多步执行,逻辑清晰,但会

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

springboot整合 xxl-job及使用步骤

《springboot整合xxl-job及使用步骤》XXL-JOB是一个分布式任务调度平台,用于解决分布式系统中的任务调度和管理问题,文章详细介绍了XXL-JOB的架构,包括调度中心、执行器和Web... 目录一、xxl-job是什么二、使用步骤1. 下载并运行管理端代码2. 访问管理页面,确认是否启动成功

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在

SpringBoot使用minio进行文件管理的流程步骤

《SpringBoot使用minio进行文件管理的流程步骤》MinIO是一个高性能的对象存储系统,兼容AmazonS3API,该软件设计用于处理非结构化数据,如图片、视频、日志文件以及备份数据等,本文... 目录一、拉取minio镜像二、创建配置文件和上传文件的目录三、启动容器四、浏览器登录 minio五、