本文主要是介绍思考题: 找到出现次数最多的数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
题目说明
有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数。
题目要求
内存限制为2GB。
实现思路
想要在很多整数中找到出现次数最多的数,通常的做法是使用哈希表对出现的每
一个数做词频统计,哈希表的key是某一个整数,value是这个数出现的次数。就本题来说,一共有20亿个数,哪怕只是一个数出现了20亿次,用32位的整数也可以表示其出现的次数而不会产生溢出,所以哈希表的key需要占用4B,value也是4B。那么哈希表的一条记录(key,value)需要占用8B。最极端的情况是20亿个数都不同,那么在哈希表中可能需要产生20亿条记录,大约为16GB内存。这样内存会不够用,所以一次性用哈希表统计20亿个数的办法是有很大风险的。
解决办法是把包含20亿个数的大文件用哈希函数分成很多个小文件,根据哈希函数的性质,同一种数不可能被哈希到不同的小文件上。
假设哈希函数设计的足够好,可以将数字近乎平均的散列到每个小文件上。假设散列到8个小文件上,理论上每个文件占用的内存正好是2GB。当然为了更稳妥起见,我们可以分成更多的小文件,比如16个,20个,40个甚至更多。假设我们这里选择散列到16个小文件上。
接下来,我们计算得到16个小文件中各自出现次数最多的数,还有各自的次数统计。接下来只要选出这16个小文件各自的第一名中谁出现的次数最多即可。
这篇关于思考题: 找到出现次数最多的数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!