亚信大数据平台产品经理 杨晋:大数据是怎么应用于技术方面的

2024-09-06 13:32

本文主要是介绍亚信大数据平台产品经理 杨晋:大数据是怎么应用于技术方面的,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2014中关村大数据日于2014年12月11日在中关村举办,大会以大会以“聚合数据资产,推动产业创新”为主题,探讨数据资产管理和变现、大数据深度技术以及行业大数据应用创新和生态系统建设等等关键问题。大会还承载从政亚信府主管部门到各行各业的需求和实践中的疑问,探讨包括政府、金融、运营商等部门是如何通过数据资产管理和运营,实现转型发展和产业创新的路径。

在下午的金融@Big Data论坛上,亚信大数据平台部产品经理杨晋作主题演讲,讲述了亚信在技术上的应用和分享。

杨晋:下午好,我是最后一个做演讲的。前面的专家和领导分享了大数据在金融行业的应用,包括在互联网金融、征信等等。下面我谈一下我们亚信在技术上的应用和分享。

我们本身亚信主要是专注于运营商行业,在移动、电信、联通三大运营商系统建设里我们亚信连续多年占据第一位,同时我们开拓很多海外市场。我们亚信是作为互联网建筑师,现在我们想成为产业互联网的领航者,因此我们走出了传统的运营商,我们也在其他的行业不断的介入,包括今天说的金融行业。

这个是前段时间和某个银行做大数据的研究方案和课题交流的时候了解到的,这个银行是通过小型机来做数据处理,每天处理任务超过8000个。涉及的核心的表和模型有3000多个,每天涉及1T的业务。数据业务很复杂,而且量也很大,有一些指标是T+2才可以展现出来,今天的交易行为,可能到后天领导和业务人员才可以看到分析指标。现在的互联网时代,大数据时代下这种效率是无法容忍的,所以需要实现到T+1,第一个还是传统的架构,小型机去实现扩容。另外一方面通过大数据来实现,家里一个X86的集群,来实现大数据的存储。根据数据量的增长,包括业务复杂性的增长不断的添加服务器做集群的扩容。同时可以大幅度的节省成本。

我们亚信认为企业级的平台分为四个阶段,第一个是导入期,利用亚信的技术实现特定场景的需求。比如运营商做的流量经营、小贷查询等等业务。第二个阶段就是平台开放期,当大数据平台建立完善以后在平台上存储越来越多的数据,现在我们反复强调数据是一个重要资产,这个资产并不是说把数据采集过来存储在硬盘上,数据就有价值了。只有对数据进行不断的分析和挖掘才能真正的实现数据的变现,这对单一的厂商可能就无法很好的达到这个目的,可能要引入更多的不同的厂商,在各个部门在同一个大数据平台针对性的进行开发实现数据的变现。这个阶段就涉及到平台的资源的有效的管理和分配,包括权限的细分。

第三个阶段是扩展期,像大型的互联网公司是处于这个阶段,他们通过在大数据平台上进行复杂的算法进行数据挖掘和分析,同时他们更进一步关注平台的稳定性,以及更好的降低投资成本。第四个阶段就是成熟期,我们认为Hadoop会成为一个底层的核心的基础架构。

同时要具备几个能力,第一个是高效能力,我们现在希望在大数据平台上可以通过标准的(英文)方式实现数据的高效处理。第二个资源管理,前面说到了平台开放情况下需要引入不同的部门,需要引入各方的厂商在同一个平台做数据开发,这个时候需要对厂商或者部门,对它划分一定的资源,进行资源有效性的管理,同时做权限划分。第三点就是涉及平台安全性了。本身平台的高效处理还是通过spak技术来实现的,它是完整的体系,像(英文),实现P处理、流处理等等各种应用场景的需求。现在离线处理,我们可以用在模型汇总方面。在运营商里涉及的数据量比较大,而且业务逻辑复杂,所以涉及数据的分层处理。主要分为几个层,一个是原始数据,一个是数据准备层,然后就是数据的汇总层,还有数据的表现层。像银行里面也有数据分层,当然具体的分层的名称和具体的含义跟运营商有不同,但是大概架构是类似的。现在对这种海量的数据的标准化,数据的快速处理,包括对数据的初步汇总,因为数据汇总后量比较好了,这时候可以用spak技术放在内存里,大幅度提高效率。像客户查询不管在运营商还是在互联网,还是在银行里都有客户标签和客户分类的概念,这个场景里主要是针对三千万的用户,每个用户是超过两千个用户标签,这里面包括用户的自然属性,比如说年轻、性别、家庭地址等等,还有就是属于社会属性的标签,比如说IT从业人员还是工人,是偏爱运动还是偏爱窝在家里看电影还是说喜欢购物。针对三千万用户,每个用户两个标签,建立一个大数据平台,通过spak技术实现,比原来的小型机提高3倍效率,节省投资达到百万以上。实时处理场景里可以通过(英文)这个技术也可以获得很好的效果。

在过去我们做实时处理更多是依赖于(英文)技术,(英文)技术只是提供一个基础的流处理的框架,但是开发中有很多应用是要我们自己开发,在实时处理过程中的内存管理也是我们做。就带来了复杂性,包括工作量的大幅的提高,像大型的互联网公司,比如腾讯用spak用的效果比较好,是因为背后大量的人员和资源投入。现在我们有了spark可以按照时间窗口进行切分,把时间窗口加到内存里,通过spark在内存里进行处理,可以达到必须好的效率,牺牲了一定的时效性,不会是来一条数据就对一条数据进行一个处理,但是带来了吞吐量的大幅度提升。

这个是之前我们在一个省做的一个项目的案例,就是在传统仓库里进行分析的数据还有业务逻辑,从仓库迁到大数据平台上面。这时候我们发现有一些脚本里的数据量的数据模型明确不是很大,但是在我们大数据平台运行以后反而处理效果低很多。还有的时候脚本里设计逻辑很复杂,大数据里会分为不同的工作,但是整个处理完的时间会变得特别长,就是因为在(英文)处理框架里会有多次的数据落地和系列化。现在引入spark技术,我们可以看到相比原来的(英文)机制,效率是快了5倍以上,同时一个巨大的优势就是把标准的(英文)直接从仓库拿出来,直接在spark上运行,不需要进行过多的改写和加工。这也是spark的一个重要的组件,它既可以支持(英文),同时也可以支持标准化的(英文),可以是平台上的通用的一个解决方案。

这个是之前在某一个省做的实时营销的平台,这是处理用户的姓名数据。每次手机开关机,或者移动到特定的位置都会产生姓名数据,包括我们的手机号码、时间、当前所属的位置信息等等,这个信息是非常有用的。在这里面用户的姓名数据每秒钟是将近5万条,这个省是8千万的用户数据,他的业务需求就是通过对数据分析要形成用户当前所处的位置,还有用户的位置轨迹的变迁信息,同时根据变迁有营销规则,通过营销平台来对用户筛选出我要推荐的用户群发送给营销系统。就像经常我们碰到的进到厂商里面,在很短的时间内就会收到短信提醒,这个厂商会搞促销活动,这就是这个平台的典型应用。我们是通过spark加(英文)来实现的,我们是每30秒为一个时间窗口,把数据加载到内存里,和信息进行匹配。我们输出的信息会作为一个姓名数据的增强,会在原有的姓名数据打上用户上一次所处的标签,把这些用户资料信息进行关联匹配,通过企业的标准(英文)的方式实现业务的开发。

我们的系统的好处首先实现了大数据量的快速处理,每个时间窗口要处理三百万的数据量,只要不到30秒就可以完成处理。另外可以写标准的(英文)可以进行业务逻辑的快速开发,比如说像十一黄金周,7天时间内我们会做一些旅游产品的营销推荐,像双十一可能只是在双十一前后一两天做商品的推荐,明天马上到双十二了,不知道大家有没有收到相关促销信息,收到了说明他们很好的利用了实时营销的平台,做了很好的数据处理。

spark技术从去年到今年变得特别火热,在我们亚信大数据平台的部门,从2013年年初我们就开始对spark技术进行跟踪和研究。同时我们培养了7位(英文),下一步我们的目标是进一步培养出我们的(英文)技术大牛,我们也可以对spark的发展起到巨大的推动的作用。也可以使spark在我们的产品和平台里起到更好的应用。

前面讲数据的高效处理,下面讲一下分配。我提到的Hadoop。现在在Hadoop2.0时代有了亚这个组件,它可以实现组件的管理,实现了Hadoop的框架,也可以实现像spark的不同的框架的混搭架构的管理。同时实现资源的有效利用。在Hadoop2.0时代只能是通过抽象的概念对数据分配,在Hadoop可以实现细资源的分配和管理。在大数据平台开放我们要引入不同的厂商和部门,我们认为不同的厂商和部门都是属于一个租户,大数据平台上会针对不同的租户分配资源,就是CPU和内存,分配资源会做限定,包括最小值和最大值,保证不同的厂商提交任务到大数据平台上的时候,保证你的资源提供给你,最小资源无法满足你的需求,可以给你提供更多的资源,强占空闲资源,实现削峰填谷。

在这里我们通过网络安全协议实现大数据平台本身服务器内部的服务交互的安全控制,大数据平台会和很多的外部系统有业务交互和数据交互,这里是通过接口来开放计算资源和存储资源。这里我们还扩展了安全组件,(英文)组件实现了(英文)的控制,现在实现针对(英文)读写的全面的控制,可以满足各类应用场景的需求。他们使用我们的大数据平台可能涉及不同的人员,比如业务人员只是对核心的数据模型有操作权限,测试人员只是分配读权限,做数据质量的集合。通过我们这种详尽的安全管理方式可以很好的满足需求。

最后也借这个机会相当于给我们产品做一个广告,本身亚信大数据平台方案,在spark和Hadoop的基础上,为客户做数据分析平台。我们主要包括两个产品,一个是我们自己基于开源社区做的集成分化的Hadoop产品,可以满足P处理还有流处理等等各种场景的应用需求。还有就是OCDC的数据分析产品,可以实现流程编排、用户管理等等,这个是我们的两个产品。同时我们也坚持技术的开放和共享原则,技术来源于社区,贡献与社区。同时我们会对所有的产品,包括我们的自己的产品,提供专业化的服务,包括部署、优化、升级等等。这就是我今天全部的介绍,谢谢大家。

这篇关于亚信大数据平台产品经理 杨晋:大数据是怎么应用于技术方面的的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1142140

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个