面试题:2G内存找出20亿个整数中出现次数最多的数

2024-04-27 07:20

本文主要是介绍面试题:2G内存找出20亿个整数中出现次数最多的数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

空间限制:2G内存找出20亿个整数中出现次数最多的数

我们假设整数是32位,也就是4B大小的int类型

极端情况:
  • 每个数都一样,该整数统计只需要8B大小的空间
  • 每个数都不一样,此时占用空间最大20亿 * 8B 接近 16GB

需要解决这个问题,我们可以先了解一个算法:

哈希分流:

哈希分流指的是通过哈希算法将数据或请求分散到多个处理单元上,以实现负载均衡高效率处理的技术。在不同的应用场景下,哈希分流有不同的具体实现方式和目的,但核心思想相同,即使用哈希算法对输入数据(如IP地址、用户ID等)进行计算,根据计算结果将数据分配到对应的服务器或处理单元。这样可以有效地分散请求或数据,避免某单一点过载,同时提高系统的可扩展性和稳定性。

哈希分流的应用场景包括但不限于:

  1. 负载均衡:在网络服务器负载均衡中,哈希分流可以将用户请求分散到多个服务器,根据用户的某些标识(如IP地址)来决定请求应由哪个服务器处理,从而均匀分配负载。
  2. 数据分片:在数据库管理或大数据处理中,哈希分流可以将数据分片存储在不同的服务器或节点上,提高数据处理的效率和响应速度。
  3. 缓存分配:在分布式缓存系统中,通过哈希算法将数据分散存储在多个缓存节点上,可以减少单个节点的压力,提高缓存系统的命中率和性能。

1. 拆分:

我们无法再2G内存中装入所有的数字所以考虑拆分,将20亿个数字拆成不同的份,分流到不同等份中。而我们采取哈希分流的原因就如上述所说。而2G内存最多能统计多少数呢,2^31 / 2 ^ 3 = 2 ^ 28个数,然后2^32 / 2 ^ 28 = 16,所以需要拆分成16份。

2. 统计:

  • 从一个存储20亿个整数的大文件依次读取数据通过哈希分流道16个小文件中
  • 依次使用2GB内存中统计小文件中的整数出现次数,找出最大值
  • 综合16个小文件中找出的最大值进行比较找出全局最大值

最后给大家推荐一个LinuxC/C++高级架构系统教程的学习资源与课程,可以帮助你有方向、更细致地学习C/C++后端开发,具体内容请见 https://xxetb.xetslk.com/s/1o04uB

这篇关于面试题:2G内存找出20亿个整数中出现次数最多的数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/939861

相关文章

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

关于Java内存访问重排序的研究

《关于Java内存访问重排序的研究》文章主要介绍了重排序现象及其在多线程编程中的影响,包括内存可见性问题和Java内存模型中对重排序的规则... 目录什么是重排序重排序图解重排序实验as-if-serial语义内存访问重排序与内存可见性内存访问重排序与Java内存模型重排序示意表内存屏障内存屏障示意表Int

如何测试计算机的内存是否存在问题? 判断电脑内存故障的多种方法

《如何测试计算机的内存是否存在问题?判断电脑内存故障的多种方法》内存是电脑中非常重要的组件之一,如果内存出现故障,可能会导致电脑出现各种问题,如蓝屏、死机、程序崩溃等,如何判断内存是否出现故障呢?下... 如果你的电脑是崩溃、冻结还是不稳定,那么它的内存可能有问题。要进行检查,你可以使用Windows 11

NameNode内存生产配置

Hadoop2.x 系列,配置 NameNode 内存 NameNode 内存默认 2000m ,如果服务器内存 4G , NameNode 内存可以配置 3g 。在 hadoop-env.sh 文件中配置如下。 HADOOP_NAMENODE_OPTS=-Xmx3072m Hadoop3.x 系列,配置 Nam

PTA求一批整数中出现最多的个位数字

作者 徐镜春 单位 浙江大学 给定一批整数,分析每个整数的每一位数字,求出现次数最多的个位数字。例如给定3个整数1234、2345、3456,其中出现最多次数的数字是3和4,均出现了3次。 输入格式: 输入在第1行中给出正整数N(≤1000),在第二行中给出N个不超过整型范围的非负整数,数字间以空格分隔。 输出格式: 在一行中按格式“M: n1 n2 ...”输出,其中M是最大次数,n

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

hdu 3065 AC自动机 匹配串编号以及出现次数

题意: 仍旧是天朝语题。 Input 第一行,一个整数N(1<=N<=1000),表示病毒特征码的个数。 接下来N行,每行表示一个病毒特征码,特征码字符串长度在1—50之间,并且只包含“英文大写字符”。任意两个病毒特征码,不会完全相同。 在这之后一行,表示“万恶之源”网站源码,源码字符串长度在2000000之内。字符串中字符都是ASCII码可见字符(不包括回车)。

整数Hash散列总结

方法:    step1  :线性探测  step2 散列   当 h(k)位置已经存储有元素的时候,依次探查(h(k)+i) mod S, i=1,2,3…,直到找到空的存储单元为止。其中,S为 数组长度。 HDU 1496   a*x1^2+b*x2^2+c*x3^2+d*x4^2=0 。 x在 [-100,100] 解的个数  const int MaxN = 3000

荣耀嵌入式面试题及参考答案

在项目中是否有使用过实时操作系统? 在我参与的项目中,有使用过实时操作系统。实时操作系统(RTOS)在对时间要求严格的应用场景中具有重要作用。我曾参与的一个工业自动化控制项目就采用了实时操作系统。在这个项目中,需要对多个传感器的数据进行实时采集和处理,并根据采集到的数据及时控制执行机构的动作。实时操作系统能够提供确定性的响应时间,确保关键任务在规定的时间内完成。 使用实时操作系统的

一些其他面试题

阿里二面:那你来说说定时任务?单机、分布式、调度框架下的定时任务实现是怎么完成的?懵了。。_哔哩哔哩_bilibili 1.定时算法 累加,第二层每一个格子是第一层的总时间400 ms= 20 * 20ms 2.MQ消息丢失 阿里二面:高并发场景下引进消息队列有什么问题?如何保证消息只被消费一次?真是捏了一把汗。。_哔哩哔哩_bilibili 发送消息失败