一分钟5万个文件,分布式存储在“数字机台”场景下的应用实践

2023-10-30 13:04

本文主要是介绍一分钟5万个文件,分布式存储在“数字机台”场景下的应用实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、 什么是“数字机台”?

从一个普普通通的螺丝,到一台复杂精密的汽车,现代工业让数以万计的零部件在流水线上彼此组合。但复杂的分工和流程,也给各个制造环节设置了极为苛刻的标准。比如一个小小的汽车组件,就有数百种尺寸要求,在生产时每个尺寸都需要通过X、Y、Z三轴数据进行确认。如何保证这些零部件的尺寸、质量符合标准,“数字机台”由此在智能制造的创新中应运而生。

通过“数字机台”的部署,新一代生产线可以利用机器视觉技术从各个不同角度快速获取被检测产品的信息,实现自动化的装配定位、质量检测、产品识别、尺寸测量等功能,可以极大程度上提升生产的效率,并已在电子制造、半导体、新汽车制造中实现了规模化应用。但随之而来的是生产线上出现了大量小至几KB大至几十MB的文本、图片数据,这些非结构化的数据让传统存储难以应付。

二、新华三分布式存储X10000助力“数字机台”场景应用的优势解析

在数字机台中,AOI(Auto Optical Inspection,自动光学检测)是核心设备之一,一台AOI设备在一分钟时间内就能产生5万多个大小在十几K到几百K左右的小文件,同时这些小文件要被打上标签,被AI计算设备读取分析,并在后续进行全生命周期的管理。但这种独特应用场景的传统存储方式存在众多问题,比如多个客户端协议导致统一管理不便,单点故障容易导致业务中断和数据丢失等问题,并且存储需要高的可扩展性,便于应对业务增长的需求,并且要有能力做好亿级小文件的高效检索和全生命周期管理,以低成本应对海量存储的需要。

在这里插入图片描述

从上图可以看到,“数字机台”对于底层数据存储平台的需求是极其复杂和多变的,其中既包括了通用网络文件系统CIFS、文件传输协议FTP、简单存储服务S3等各种协议,让底层的存储集群疲于应对,而且在集群内部也需要处理好不同数据的传输和管理。显而易见,传统本地存储和集中式NAS存储都无法独立满足这些严格需求。
在这里插入图片描述

为什么本地存储和NAS存储都无法满足数字机台的需求

作为新华三集团自主研发的存储“代表作”,X10000存储凭借高达8192个节点的高扩展性,提供EB级的大容量存储,能够以五大亮点应对“数字机台”特定场景的高标准要求。

  • 亮点一:统一存储,简便运维

X10000支持HDFS、S3、iSCSI、NFS、CIFS、CSI等全存储协议,基于硬盘池划分实现块、文件、对象、大数据等不同类型数据的融合部署,做到按需扩容,多集群的统一管理。

- 亮点二:数据安全多重保障
X10000还提供了多副本、纠删码等诸多功能保障数据实现11个9的高可靠,WORM、回收站、多版本等数据保护手段能有效避免数据丢失、损坏等风险,并能通过跨越上千公里的远程复制构建完备的容灾体系。

- 亮点三:读写性能全面提升
X10000打造了一个由SSD+HDD组成的 “缓存池”,智能化地处理不同IO需求,前台写小IO,并通过小IO聚合为大IO的方式提升性能加速,借助ROW无损快照将性能下降控制在5%以内,单桶20亿的性能下降控制在了10%以内。
在这里插入图片描述

- 亮点四:检索效率提升几十倍

X10000通过自动定时推送、自动打标签、元数据检索等用户友好型特性,实现亿级文件秒级检索,帮助企业减少人工操作,融合非结构化数据资源池,更好地利用机台数据进行质检分析,帮助提升产线产品质量,释放机台数据的业务价值。

  • 亮点五:线性扩容,低TCO

8+2的大比例纠删,支持图片重删压缩,让数字机台在同等硬件配置下,有效磁盘空间从三副本的33%提升到了80%。而且X10000支持无缝的不停机扩容,做到性能线性增加,避免新购License提升成本。而且X10000支持硬盘一键换盘,支持热插拔,并支持自动化的文件分级存储和对象生命周期管理,能够有效提升存储效率。

在这里插入图片描述

三、落地有为,在实践中印证实力

如果说技术和参数让X10000具备承载数字机台高效运转的全能实力,那么在半导体、制造等行业中的真实应用,就给出了这一能力的实践印证。在某家国内知名的半导体企业,X10000成为了应对ADC业务数亿小文件的创新“利器”,通过小IO聚合、读写缓存、ROW等提升读写性能,并借助线性平滑扩容和大规模集群应对数据量的大幅度增长,提升生产效率。在某家全球领先的制造企业,X10000帮助其破解数据统一管理难题,以多种存储类型和协议的广泛兼容,为未来的业务增长预留创新空间,并通过EB级的扩展性和全方位的运维保障特性,提供全生命周期的数据服务。

在核心的制造业之外,X10000也在能源、汽车等行业中广泛应用。在某能源企业内,CCD机器视觉检测业务每天都会产出几百KB的小文件,并且这些文件要保证未来15年的存放和管理。为了应对这一高难度的需求,X10000通过大比例纠删冗余策略提升空间利用率,并通过自动分级和归档在满足快速访问查询的需求的同时,满足数据低成本长期存储。

四、小结

从制造到智造注定不是一个一蹴而就的过程,而是需要长期的创新探索和实践变革。在这背后,新华三以对智能存储创新的持续投入为更多行业转型场景构筑坚实有力、智能高效的数字底座,让数据这一指数级增长的生产要素在未来焕发新的价值和生命力。

这篇关于一分钟5万个文件,分布式存储在“数字机台”场景下的应用实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/308108

相关文章

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

zoj3820(树的直径的应用)

题意:在一颗树上找两个点,使得所有点到选择与其更近的一个点的距离的最大值最小。 思路:如果是选择一个点的话,那么点就是直径的中点。现在考虑两个点的情况,先求树的直径,再把直径最中间的边去掉,再求剩下的两个子树中直径的中点。 代码如下: #include <stdio.h>#include <string.h>#include <algorithm>#include <map>#

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、