亚信大数据平台产品经理 杨晋:大数据是怎么应用于技术方面的

2024-09-06 13:32

本文主要是介绍亚信大数据平台产品经理 杨晋:大数据是怎么应用于技术方面的,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2014中关村大数据日于2014年12月11日在中关村举办,大会以大会以“聚合数据资产,推动产业创新”为主题,探讨数据资产管理和变现、大数据深度技术以及行业大数据应用创新和生态系统建设等等关键问题。大会还承载从政亚信府主管部门到各行各业的需求和实践中的疑问,探讨包括政府、金融、运营商等部门是如何通过数据资产管理和运营,实现转型发展和产业创新的路径。

在下午的金融@Big Data论坛上,亚信大数据平台部产品经理杨晋作主题演讲,讲述了亚信在技术上的应用和分享。

杨晋:下午好,我是最后一个做演讲的。前面的专家和领导分享了大数据在金融行业的应用,包括在互联网金融、征信等等。下面我谈一下我们亚信在技术上的应用和分享。

我们本身亚信主要是专注于运营商行业,在移动、电信、联通三大运营商系统建设里我们亚信连续多年占据第一位,同时我们开拓很多海外市场。我们亚信是作为互联网建筑师,现在我们想成为产业互联网的领航者,因此我们走出了传统的运营商,我们也在其他的行业不断的介入,包括今天说的金融行业。

这个是前段时间和某个银行做大数据的研究方案和课题交流的时候了解到的,这个银行是通过小型机来做数据处理,每天处理任务超过8000个。涉及的核心的表和模型有3000多个,每天涉及1T的业务。数据业务很复杂,而且量也很大,有一些指标是T+2才可以展现出来,今天的交易行为,可能到后天领导和业务人员才可以看到分析指标。现在的互联网时代,大数据时代下这种效率是无法容忍的,所以需要实现到T+1,第一个还是传统的架构,小型机去实现扩容。另外一方面通过大数据来实现,家里一个X86的集群,来实现大数据的存储。根据数据量的增长,包括业务复杂性的增长不断的添加服务器做集群的扩容。同时可以大幅度的节省成本。

我们亚信认为企业级的平台分为四个阶段,第一个是导入期,利用亚信的技术实现特定场景的需求。比如运营商做的流量经营、小贷查询等等业务。第二个阶段就是平台开放期,当大数据平台建立完善以后在平台上存储越来越多的数据,现在我们反复强调数据是一个重要资产,这个资产并不是说把数据采集过来存储在硬盘上,数据就有价值了。只有对数据进行不断的分析和挖掘才能真正的实现数据的变现,这对单一的厂商可能就无法很好的达到这个目的,可能要引入更多的不同的厂商,在各个部门在同一个大数据平台针对性的进行开发实现数据的变现。这个阶段就涉及到平台的资源的有效的管理和分配,包括权限的细分。

第三个阶段是扩展期,像大型的互联网公司是处于这个阶段,他们通过在大数据平台上进行复杂的算法进行数据挖掘和分析,同时他们更进一步关注平台的稳定性,以及更好的降低投资成本。第四个阶段就是成熟期,我们认为Hadoop会成为一个底层的核心的基础架构。

同时要具备几个能力,第一个是高效能力,我们现在希望在大数据平台上可以通过标准的(英文)方式实现数据的高效处理。第二个资源管理,前面说到了平台开放情况下需要引入不同的部门,需要引入各方的厂商在同一个平台做数据开发,这个时候需要对厂商或者部门,对它划分一定的资源,进行资源有效性的管理,同时做权限划分。第三点就是涉及平台安全性了。本身平台的高效处理还是通过spak技术来实现的,它是完整的体系,像(英文),实现P处理、流处理等等各种应用场景的需求。现在离线处理,我们可以用在模型汇总方面。在运营商里涉及的数据量比较大,而且业务逻辑复杂,所以涉及数据的分层处理。主要分为几个层,一个是原始数据,一个是数据准备层,然后就是数据的汇总层,还有数据的表现层。像银行里面也有数据分层,当然具体的分层的名称和具体的含义跟运营商有不同,但是大概架构是类似的。现在对这种海量的数据的标准化,数据的快速处理,包括对数据的初步汇总,因为数据汇总后量比较好了,这时候可以用spak技术放在内存里,大幅度提高效率。像客户查询不管在运营商还是在互联网,还是在银行里都有客户标签和客户分类的概念,这个场景里主要是针对三千万的用户,每个用户是超过两千个用户标签,这里面包括用户的自然属性,比如说年轻、性别、家庭地址等等,还有就是属于社会属性的标签,比如说IT从业人员还是工人,是偏爱运动还是偏爱窝在家里看电影还是说喜欢购物。针对三千万用户,每个用户两个标签,建立一个大数据平台,通过spak技术实现,比原来的小型机提高3倍效率,节省投资达到百万以上。实时处理场景里可以通过(英文)这个技术也可以获得很好的效果。

在过去我们做实时处理更多是依赖于(英文)技术,(英文)技术只是提供一个基础的流处理的框架,但是开发中有很多应用是要我们自己开发,在实时处理过程中的内存管理也是我们做。就带来了复杂性,包括工作量的大幅的提高,像大型的互联网公司,比如腾讯用spak用的效果比较好,是因为背后大量的人员和资源投入。现在我们有了spark可以按照时间窗口进行切分,把时间窗口加到内存里,通过spark在内存里进行处理,可以达到必须好的效率,牺牲了一定的时效性,不会是来一条数据就对一条数据进行一个处理,但是带来了吞吐量的大幅度提升。

这个是之前我们在一个省做的一个项目的案例,就是在传统仓库里进行分析的数据还有业务逻辑,从仓库迁到大数据平台上面。这时候我们发现有一些脚本里的数据量的数据模型明确不是很大,但是在我们大数据平台运行以后反而处理效果低很多。还有的时候脚本里设计逻辑很复杂,大数据里会分为不同的工作,但是整个处理完的时间会变得特别长,就是因为在(英文)处理框架里会有多次的数据落地和系列化。现在引入spark技术,我们可以看到相比原来的(英文)机制,效率是快了5倍以上,同时一个巨大的优势就是把标准的(英文)直接从仓库拿出来,直接在spark上运行,不需要进行过多的改写和加工。这也是spark的一个重要的组件,它既可以支持(英文),同时也可以支持标准化的(英文),可以是平台上的通用的一个解决方案。

这个是之前在某一个省做的实时营销的平台,这是处理用户的姓名数据。每次手机开关机,或者移动到特定的位置都会产生姓名数据,包括我们的手机号码、时间、当前所属的位置信息等等,这个信息是非常有用的。在这里面用户的姓名数据每秒钟是将近5万条,这个省是8千万的用户数据,他的业务需求就是通过对数据分析要形成用户当前所处的位置,还有用户的位置轨迹的变迁信息,同时根据变迁有营销规则,通过营销平台来对用户筛选出我要推荐的用户群发送给营销系统。就像经常我们碰到的进到厂商里面,在很短的时间内就会收到短信提醒,这个厂商会搞促销活动,这就是这个平台的典型应用。我们是通过spark加(英文)来实现的,我们是每30秒为一个时间窗口,把数据加载到内存里,和信息进行匹配。我们输出的信息会作为一个姓名数据的增强,会在原有的姓名数据打上用户上一次所处的标签,把这些用户资料信息进行关联匹配,通过企业的标准(英文)的方式实现业务的开发。

我们的系统的好处首先实现了大数据量的快速处理,每个时间窗口要处理三百万的数据量,只要不到30秒就可以完成处理。另外可以写标准的(英文)可以进行业务逻辑的快速开发,比如说像十一黄金周,7天时间内我们会做一些旅游产品的营销推荐,像双十一可能只是在双十一前后一两天做商品的推荐,明天马上到双十二了,不知道大家有没有收到相关促销信息,收到了说明他们很好的利用了实时营销的平台,做了很好的数据处理。

spark技术从去年到今年变得特别火热,在我们亚信大数据平台的部门,从2013年年初我们就开始对spark技术进行跟踪和研究。同时我们培养了7位(英文),下一步我们的目标是进一步培养出我们的(英文)技术大牛,我们也可以对spark的发展起到巨大的推动的作用。也可以使spark在我们的产品和平台里起到更好的应用。

前面讲数据的高效处理,下面讲一下分配。我提到的Hadoop。现在在Hadoop2.0时代有了亚这个组件,它可以实现组件的管理,实现了Hadoop的框架,也可以实现像spark的不同的框架的混搭架构的管理。同时实现资源的有效利用。在Hadoop2.0时代只能是通过抽象的概念对数据分配,在Hadoop可以实现细资源的分配和管理。在大数据平台开放我们要引入不同的厂商和部门,我们认为不同的厂商和部门都是属于一个租户,大数据平台上会针对不同的租户分配资源,就是CPU和内存,分配资源会做限定,包括最小值和最大值,保证不同的厂商提交任务到大数据平台上的时候,保证你的资源提供给你,最小资源无法满足你的需求,可以给你提供更多的资源,强占空闲资源,实现削峰填谷。

在这里我们通过网络安全协议实现大数据平台本身服务器内部的服务交互的安全控制,大数据平台会和很多的外部系统有业务交互和数据交互,这里是通过接口来开放计算资源和存储资源。这里我们还扩展了安全组件,(英文)组件实现了(英文)的控制,现在实现针对(英文)读写的全面的控制,可以满足各类应用场景的需求。他们使用我们的大数据平台可能涉及不同的人员,比如业务人员只是对核心的数据模型有操作权限,测试人员只是分配读权限,做数据质量的集合。通过我们这种详尽的安全管理方式可以很好的满足需求。

最后也借这个机会相当于给我们产品做一个广告,本身亚信大数据平台方案,在spark和Hadoop的基础上,为客户做数据分析平台。我们主要包括两个产品,一个是我们自己基于开源社区做的集成分化的Hadoop产品,可以满足P处理还有流处理等等各种场景的应用需求。还有就是OCDC的数据分析产品,可以实现流程编排、用户管理等等,这个是我们的两个产品。同时我们也坚持技术的开放和共享原则,技术来源于社区,贡献与社区。同时我们会对所有的产品,包括我们的自己的产品,提供专业化的服务,包括部署、优化、升级等等。这就是我今天全部的介绍,谢谢大家。

这篇关于亚信大数据平台产品经理 杨晋:大数据是怎么应用于技术方面的的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1142140

相关文章

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

W外链微信推广短连接怎么做?

制作微信推广链接的难点分析 一、内容创作难度 制作微信推广链接时,首先需要创作有吸引力的内容。这不仅要求内容本身有趣、有价值,还要能够激起人们的分享欲望。对于许多企业和个人来说,尤其是那些缺乏创意和写作能力的人来说,这是制作微信推广链接的一大难点。 二、精准定位难度 微信用户群体庞大,不同用户的需求和兴趣各异。因此,制作推广链接时需要精准定位目标受众,以便更有效地吸引他们点击并分享链接

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo