clusterdata-2011-2 谷歌集群数据分析(二)

2024-05-25 23:32

本文主要是介绍clusterdata-2011-2 谷歌集群数据分析(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yangss123/article/details/78298749
先对 task_usage 即任务资源使用表进行一个分析学习。表共有20列,代表20个属性,具体每一列代表含义即属性名称如下:

             

        

1、每个测量周期是5分钟(300秒),这也能够佐证时间单位是微秒,因为表中每一行开始时间和结束时间数值相差为300000000。

2、第四个属性即 task index 属性是指将一个Job分成多个Task,对这些Task进行一个编号,一个Job下的多个Task在不同的机器上可以实现并行执行。

3、对于一个Job,可以是顺序执行,不再细分为多个Task ,如下图,Job ID 为6227108810的作业,task index 为0,一直在machine ID 为156767904 的机器上执行,看时间区间没有重叠,是顺序执行。


4、有的 Job 是并行执行,而且细分为多个Task ,如下图,Job ID 为6232112095的作业,task index 为0--49,说明分成了50个task来执行,分布在50个不同的machine ID 的机器上并行执行,并且在一个测量周期内(5700000000--6000000000)并没有执行完,在下一个周期(6000000000--6300000000)中继续50台机器并行执行。


5、有的Job是并行任务和顺序执行任务都包含,如下图,Job ID 为3418375的作业,task index 为0--1,在前几个个测量周期内(5700000000--7500000000)是并行执行,即分成两个任务同时运行,但是在后几个周期(7500000000--8100000000)中只是以一个任务的形式,在一台机器上顺序执行。这种情况应该是分的任务之间长度不一定相同,有的执行时间短,有的执行时间长,这种情形也证明了多余每个细分的 task 来说,只能是顺序执行,每个任务单元不能再分布式并行执行。


6、对于一个机器来说,在同一时间段可以执行多个不同的任务,这些任务可以来自不同的Job,也可以来自同一个Job,但是同一个任务在一个时间周期中只能执行一次,如下图,machine ID 为6226704737的机器,在一个测量周期中执行了来自12个不同 的task,这些task有的来自同一个Job ID(6221861800),但是同一个Job 下的同一个task(例如6221861800下的10704)在一个测量周期内只能执行一次,没执行完在下个周期继续执行。这里猜想同一时间段中对于不同的任务,应该采用了一些调度算法(类似时间片轮转调度算法),使得这些任务看起来是在一个时间段中并行执行,其实应该是顺序执行,因为就一台机器。


7、有的 task 也没有按照严格的测量周期来执行,如下图,machine ID 为27的机器,标红的五项为Job ID 为6252026869 下的task index 为278的任务,这个任务执行周期不是300秒,但是对于不规则的任务,他们还是顺序执行,这点也更加说明了task是最小单位,不能够再拆分成多个任务并行执行。


这篇关于clusterdata-2011-2 谷歌集群数据分析(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1002920

相关文章

centos7基于keepalived+nginx部署k8s1.26.0高可用集群

《centos7基于keepalived+nginx部署k8s1.26.0高可用集群》Kubernetes是一个开源的容器编排平台,用于自动化地部署、扩展和管理容器化应用程序,在生产环境中,为了确保集... 目录一、初始化(所有节点都执行)二、安装containerd(所有节点都执行)三、安装docker-

如何在一台服务器上使用docker运行kafka集群

《如何在一台服务器上使用docker运行kafka集群》文章详细介绍了如何在一台服务器上使用Docker运行Kafka集群,包括拉取镜像、创建网络、启动Kafka容器、检查运行状态、编写启动和关闭脚本... 目录1.拉取镜像2.创建集群之间通信的网络3.将zookeeper加入到网络中4.启动kafka集群

Nacos集群数据同步方式

《Nacos集群数据同步方式》文章主要介绍了Nacos集群中服务注册信息的同步机制,涉及到负责节点和非负责节点之间的数据同步过程,以及DistroProtocol协议在同步中的应用... 目录引言负责节点(发起同步)DistroProtocolDistroSyncChangeTask获取同步数据getDis

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

HDFS—集群扩容及缩容

白名单:表示在白名单的主机IP地址可以,用来存储数据。 配置白名单步骤如下: 1)在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件 (1)创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称,假如集群正常工作的节

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

搭建Kafka+zookeeper集群调度

前言 硬件环境 172.18.0.5        kafkazk1        Kafka+zookeeper                Kafka Broker集群 172.18.0.6        kafkazk2        Kafka+zookeeper                Kafka Broker集群 172.18.0.7        kafkazk3

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

一种改进的red5集群方案的应用、基于Red5服务器集群负载均衡调度算法研究

转自: 一种改进的red5集群方案的应用: http://wenku.baidu.com/link?url=jYQ1wNwHVBqJ-5XCYq0PRligp6Y5q6BYXyISUsF56My8DP8dc9CZ4pZvpPz1abxJn8fojMrL0IyfmMHStpvkotqC1RWlRMGnzVL1X4IPOa_  基于Red5服务器集群负载均衡调度算法研究 http://ww

828华为云征文|华为云Flexus X实例docker部署rancher并构建k8s集群

828华为云征文|华为云Flexus X实例docker部署rancher并构建k8s集群 华为云最近正在举办828 B2B企业节,Flexus X实例的促销力度非常大,特别适合那些对算力性能有高要求的小伙伴。如果你有自建MySQL、Redis、Nginx等服务的需求,一定不要错过这个机会。赶紧去看看吧! 什么是华为云Flexus X实例 华为云Flexus X实例云服务是新一代开箱即用、体