Hive时间窗口函数保姆级教程(最全解析、应用和优化)(持续更新)

本文主要是介绍Hive时间窗口函数保姆级教程(最全解析、应用和优化)(持续更新),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

第一章 Hive时间窗口函数基础

1.1 时间窗口函数定义

1.2 Hive支持的时间窗口函数

1.2.1 ROW_NUMBER()

1.2.2 RANK()

1.2.3 DENSE_RANK()

1.2.4 LEAD() 和 LAG()

1.2.5 FIRST_VALUE() 和 LAST_VALUE()

1.3 时间窗口函数语法与参数

1.3.1 PARTITION BY 子句

1.3.2 ORDER BY 子句

1.3.3 ROWS/RANGE BETWEEN 子句

1.4 介绍ROW_NUMBER()、RANK()、 DENSE_RANK()的应用场景

第二章 Hive时间窗口函数应用场景

2.1 数据排序与分组

2.2 数据去重与查重

2.3 进行补数

2.4 复杂数据统计分析

第三章 Hive时间窗口函数性能优化

3.1 性能瓶颈分析

3.2 优化策略与实践


第一章 Hive时间窗口函数基础

1.1 时间窗口函数定义

时间窗口函数在SQL查询中扮演着特殊而重要的角色,它们被专门设计用于处理时间序列数据相关的查询。这类函数通过设定一个特定的时间窗口,允许用户在这个时间范围内对数据进行各种操作,如聚合、排序或深入分析等。这些操作的目的在于揭示数据随时间推移而展现出的变化趋势或内在特性。在处理时间序列数据时,时间窗口函数的价值无可替代,它们为数据分析和挖掘工作提供了强大的支持。

时间序列数据,顾名思义,是按时间顺序排列的数据,这类数据在各个领域都有广泛的应用,如金融市场分析、气候变化研究、销售趋势预测等。时间窗口函数为这些领域提供了一种灵活且强大的数据分析工具。通过设定不同的时间窗口,分析师可以观察到数据在不同时间段内的变化情况,从而更准确地把握市场动态、气候模式或销售趋势。

时间窗口函数的强大之处在于其灵活性和多功能性。它们不仅可以用于简单的数据聚合,如计算某段时间内的平均值、最大值或最小值,还可以进行更复杂的分析,如移动平均计算、趋势预测等。此外,时间窗口函数还可以与其他SQL函数和语句结合使用,以满足更复杂的数据分析需求。

1.2 Hive支持的时间窗口函数

Hive支持一系列时间窗口函数,这些函数包括但不限于ROW_NUMBER()、RANK()、DENSE_RANK()、LEAD()、LAG()、FIRST_VALUE()、LAST_VALUE()等。每一种函数都承载着特定的数据处理任务,能够灵活应对各种复杂的数据挑战。

1.2.1 ROW_NUMBER()

ROW_NUMBER()函数在数据处理中扮演着重要角色,它为结果集中的每一行分配一个连续且唯一的整数。这一功能通常与OVER()子句结合使用,以便为数据排序和窗口分区提供明确的指导。例如,在分页场景中,该函数可以有效地为每一页的数据行分配序号,从而简化数据的检索和管理过程。

1.2.2 RANK()

在处理需要排名的数据时,RANK()函数显得尤为重要。它能够在数据分组内部对数据进行排名,对于值相同的数据项,该函数会赋予它们相同的排名,并且在排名序列中留下间隔。例如,在竞赛排名场景中,若有多名选手成绩相同,则它们会共享一个排名,而后续选手的排名则会相应后退。

1.2.3 DENSE_RANK()

与RANK()函数相似,DENSE_RANK()也用于数据的排名处理。不同之处在于,当遇到值相同的数据项时,虽然也会赋予相同的排名,但在排名序列中不会留下间隔。这种处理方式确保了排名的连续性,适用于需要紧密排名序列的场景。

1.2.4 LEAD() 和 LAG()

在处理时间序列数据或需要比较相邻数据项的场景中,LEAD()和LAG()函数发挥着关键作用。LEAD()函数允许用户访问结果集中当前行的下一行数据,而LAG()函数则提供对当前行上一行数据的访问能力。这两个函数的结合使用,为数据补全、趋势分析以及连续值之间的差异计算提供了有力支持。

1.2.5 FIRST_VALUE() 和 LAST_VALUE()

在处理时间序列数据时,经常需要提取某个时间段内的起始值或结束值。FIRST_VALUE()和LAST_VALUE()函数正是为了满足这一需求而设计的。它们分别能够返回指定窗口中的第一个值和最后一个值。

1.3 时间窗口函数语法与参数

Hive中的时间窗口函数是与OVER()子句紧密结合的,这一子句的存在使得窗口函数能够指定操作的分区、排序方式以及窗口的范围。OVER()子句是窗口函数的核心,它决定了数据如何在窗口内进行聚合或计算。

1.3.1 PARTITION BY 子句

PARTITION BY子句在OVER()函数中起到了分组的作用。它指定了窗口函数应该在哪些数据分区上独立进行操作。每个分区内的数据会单独计算,互不干扰。例如,在分析销售数据时,我们可能希望按产品类别或地区进行分区,以便分别计算每个类别或地区的销售总额。

1.3.2 ORDER BY 子句

ORDER BY子句则定义了窗口函数中的数据排序方式。它指定了数据在窗口内的排列顺序,这对于像ROW_NUMBER()、RANK()和DENSE_RANK()这样的排名函数来说尤为重要。排序可以基于一个或多个列进行,并且可以指定升序(ASC)或降序(DESC)。

1.3.3 ROWS/RANGE BETWEEN 子句

ROWS/RANGE BETWEEN子句用于指定窗口的起始和结束范围。它决定了窗口函数将在哪些行或值范围内进行计算。ROWS是基于行的物理位置来定义窗口范围,而RANGE则是基于排序值来定义。这个子句非常灵活,可以支持诸如“当前行之前的三行”或“当前值之后的所有值”等复杂范围的定义。

正确使用这些子句是确保窗口函数能够按照预期工作的关键。它们提供了强大的数据操作能力,使得复杂的数据分析任务变得相对简单和直观。

考虑一个包含销售日期、产品ID和销售金额的销售数据集。如果我们想要计算每个产品在过去七天内的销售总额,我们可以使用带有适当OVER()子句的窗口函数来实现这一点。我们可以使用SUM()函数作为窗口函数,并结合PARTITION BY(按产品ID分区)、ORDER BY(按销售日期排序)和ROWS BETWEEN(定义过去七天的行范围)等子句来完成这个任务。

通过精心构造的OVER()子句,我们可以轻松地对数据进行复杂的聚合和计算操作,从而揭示出隐藏在数据中的有价值的信息和趋势。

虽然窗口函数提供了强大的功能,但它们也可能导致查询性能的下降。特别是在处理大数据集时,不恰当的窗口函数使用可能会引发性能瓶颈。因此,在使用窗口函数时,我们应该始终关注查询的性能表现,并根据需要进行优化。

1.4 介绍ROW_NUMBER()、RANK()、 DENSE_RANK()的应用场景

在Hive中,ROW_NUMBER()、RANK()和DENSE_RANK()是三种常用的时间窗口函数,它们在处理时间序列数据时各自具有独特的应用场景。

ROW_NUMBER()函数为每一行分配一个唯一的整数,通常用于数据排序和分页。在数据分析过程中,当需要获取排序后的前N条记录或者实现数据的分页展示时,ROW_NUMBER()函数就显得尤为重要。例如,在电商平台的销售数据分析中,可以利用ROW_NUMBER()函数按照销售额进行排序,快速定位到销售额最高的商品。

RANK()函数则用于为数据集中的每一行分配一个排名,相同值会获得相同的排名,并且排名之间会有间隔。这种排名方式在处理比赛成绩、评分等需要处理并列排名的情况时非常有用。比如,在学校的考试成绩分析中,可以使用RANK()函数对学生的成绩进行排名,若有多名学生成绩相同,则会给予相同的排名。

DENSE_RANK()函数与RANK()类似,也是为数据集中的每一行分配一个排名,但不同之处在于处理并列排名时不会留下间隔。这种排名方式在需要连续排名值的情况下更为合适。例如,在科研领域的论文引用分析中,可以利用DENSE_RANK()函数对论文的引用次数进行排名,即使多篇论文的引用次数相同,也能保证排名的连续性。

第二章 Hive时间窗口函数应用场景

2.1 数据排序与分组

在数据处理和分析中,排序和分组是两个常见的操作。Hive作为基于Hadoop的数据仓库工具,其支持的时间窗口函数为这两类操作提供了强大的支持。特别是ROW_NUMBER()函数,结合OVER()子句,可以轻松地实现数据的排序与分组。

使用ROW_NUMBER()函数时,我们通常会结合OVER()子句来指定排序和窗口的分区。OVER()子句中的PARTITION BY部分用于定义数据的分组,而ORDER BY部分则用于指定每个分组内的排序规则。这样,在每个分组内部,数据都会根据指定的规则进行排序,并且每行都会被分配一个唯一的连续整数。

举个例子,假设我们有一个包含员工销售数据的表格,其中包含了员工的ID、销售日期和销售金额等信息。如果我们想要按照员工的ID进行分组,并在每个分组内按照销售日期进行排序,同时给每行数据分配一个行号,那么我们可以使用如下的Hive SQL查询语句:

SELECT employee_id, sale_date, sale_amount,

ROW_NUMBER() OVER (PARTITION BY employee_id ORDER BY sale_date) as row_num

FROM sales_data;

上述查询中,PARTITION BY employee_id表示按照员工的ID进行分组,ORDER BY sale_date表示在每个分组内按照销售日期进行排序。ROW_NUMBER()函数则为每个分组内的数据行分配了一个唯一的行号。

除了ROW_NUMBER()函数外,RANK()和DENSE_RANK()函数也常用于数据的排序和分组场景。这两个函数在处理并列排名时有所不同:RANK()函数在遇到并列排名时会跳过下一个排名值,而DENSE_RANK()函数则不会跳过任何排名值。这种差异在某些特定的数据分析场景下可能会非常有用。

在竞赛排名中,如果两个选手并列第一,那么使用RANK()函数时,下一个选手将被排名为第三;而使用DENSE_RANK()函数时,下一个选手仍将被排名为第二。这两种不同的排名方式可以根据实际的需求来选择使用。

Hive的时间窗口函数为数据的排序和分组提供了灵活且强大的工具。通过合理使用这些函数,我们可以轻松地应对各种复杂的数据处理需求,从而更有效地挖掘和分析数据中的信息[9]。

在实际应用中,我们还可以结合其他Hive函数和特性来进一步扩展和优化数据的排序与分组操作。例如,可以使用Hive的聚合函数来对分组后的数据进行统计和分析;或者使用Hive的分区和桶特性来提高数据的查询性能等。这些技术和方法的综合运用将有助于我们更好地应对大数据处理和分析的挑战[9]。

虽然Hive提供了强大的时间窗口函数支持,但在使用时也需要考虑其性能和资源消耗等因素。特别是在处理大规模数据时,合理的查询优化和资源配置是确保查询效率和系统稳定性的关键。

2.2 数据去重与查重

在数据处理过程中,去重和查重是两个常见的任务。这两个操作对于确保数据的准确性和一致性至关重要。时间窗口函数,特别是RANK()和DENSE_RANK(),可以高效地处理这类问题。

当数据集中存在重复记录时,这些重复数据可能会对数据分析和挖掘的结果产生误导。因此,在进行分析之前,识别并去除这些重复数据是必要的。使用时间窗口函数可以帮助我们快速定位和处理这些重复项。

以RANK()函数为例,它可以根据指定的排序规则为数据集中的每一行分配一个排名。当存在重复值时,RANK()会给予这些重复值相同的排名,并在下一个不重复的值处跳过相应的排名数。这一特性使得RANK()函数非常适合用于查找重复数据。

具体操作时,我们可以首先使用RANK()函数结合OVER()子句对数据进行排名。然后,通过检查排名值的变化,我们可以轻松识别出重复的记录。例如,如果两条或多条记录的排名值相同,那么这些记录就是重复的。

类似地,DENSE_RANK()函数也可以用于此目的,但它在处理重复排名时的行为与RANK()略有不同。DENSE_RANK()不会在遇到重复值时跳过任何排名,而是连续分配排名。这意味着即使存在重复值,每个记录的排名也都是唯一的(在重复值范围内除外)。

在实际应用中,我们可以根据具体需求选择使用RANK()或DENSE_RANK()函数。例如,如果我们希望保留重复记录中的第一条记录并删除其余重复项,那么可以使用RANK()函数并结合适当的条件过滤来实现。

对于更复杂的数据去重和查重需求,我们还可以结合其他SQL功能和技巧来实现。例如,可以使用子查询、临时表或窗口函数的其他功能来进一步增强数据处理的灵活性和准确性。

时间窗口函数在数据去重和查重方面提供了强大的支持。通过合理利用这些函数,我们可以高效地处理数据集中的重复项,从而确保后续数据分析和挖掘的准确性。

在使用时间窗口函数进行数据去重和查重时,我们还需要考虑数据的完整性和一致性。例如,在删除重复记录之前,我们应该确保这些记录不会对其他数据分析或业务逻辑产生影响。此外,对于大规模数据集的处理,我们还需要考虑性能优化的问题,以确保去重和查重操作的效率和准确性。

2.3 进行补数

在处理时间序列数据时,数据缺失是一个常见的问题。为了解决这个问题,Hive提供了多种时间窗口函数,如LEAD()、LAG()、FIRST_VALUE()和LAST_VALUE()等,这些函数特别适用于进行数据的补全操作。

LAG()函数能够获取当前行之前的N行的数据,常用于填补时间序列数据中缺失的值。例如,假设我们有一个按日期排序的销售数据表,其中某些日期的销售数据缺失。通过LAG()函数,我们可以获取缺失日期前一天的销售数据,并将其作为缺失日期的估算值。

LEAD()函数则用于获取当前行之后的N行的数据。在处理时间序列数据时,这可以帮助我们预测未来的趋势或者填补数据中的空白。比如,在股票价格预测的场景中,我们可以使用LEAD()函数来获取未来几天的股票价格,并结合其他算法进行预测分析。

除了LAG()和LEAD()函数外,FIRST_VALUE()和LAST_VALUE()函数也常用于数据的补全。这两个函数分别返回窗口中的第一个值和最后一个值。在时间序列数据的处理中,它们可以帮助我们提取某个时间段内的起始值和结束值,从而进行进一步的分析和计算。例如,在统计某个月份内每天的销售数据时,如果某天的数据缺失,我们可以使用FIRST_VALUE()函数将月份的第一天的销售数据作为缺失天的估算值。

在使用这些时间窗口函数进行补数操作时,我们应该根据具体的数据特征和业务需求来选择合适的函数和参数。同时,对于补全后的数据,我们还需要进行相应的验证和调整,以确保数据的准确性和可靠性。

Hive的时间窗口函数不仅可以用于数据的补全操作,还可以应用于数据排序与分组、数据去重与查重等多种场景。这些函数为时间序列数据的处理提供了强大的工具支持,使得我们能够更加高效地进行数据分析和挖掘工作。

Hive的时间窗口函数在处理时间序列数据时具有广泛的应用价值。通过灵活运用这些函数,我们可以有效地解决数据缺失等问题,提升数据分析和挖掘的效率和准确性。同时,不断熟悉和掌握这些函数的使用方法和技巧,也对于我们提升数据处理能力和水平具有重要的意义。

2.4 复杂数据统计分析

在时间序列数据的统计分析中,时间窗口函数展现出了其强大的功能。通过精心定义时间窗口和选择适当的聚合函数,研究人员能够深入挖掘数据的内在规律和趋势,从而为决策提供更为准确和全面的依据。

在复杂数据的统计分析过程中,时间窗口函数的应用显得尤为关键。例如,在处理包含多个时间序列的数据集时,研究人员可能需要比较不同时间点上的数据变化,以识别出潜在的模式或异常。这时,LEAD()和LAG()等函数就能够派上用场,它们允许研究人员轻松地访问到当前时间点之前或之后的数据,从而进行跨时间点的比较和分析。

在进行时间序列数据的趋势分析时,ROW_NUMBER()、RANK()和DENSE_RANK()等函数也能够提供有力的支持。这些函数能够帮助研究人员对数据进行排序和分组,进而揭示出数据随时间变化的整体趋势。例如,在销售数据分析中,研究人员可以利用这些函数来识别出销售额在不同时间段内的排名变化,从而及时调整销售策略以应对市场变化。

除了上述函数外,FIRST_VALUE()和LAST_VALUE()等函数在处理时间序列数据时也具有独特的应用价值。它们能够帮助研究人员快速获取到窗口内的起始值和结束值,从而方便地进行数据的范围分析和比较。这在处理具有明显时间周期性的数据时尤为有用,如股票价格、气象数据等。

时间窗口函数的应用并不仅限于单一函数的独立使用。在实际的数据分析过程中,研究人员往往需要结合多种函数来构建更为复杂的查询和分析逻辑。例如,可以通过组合使用PARTITION BY、ORDER BY以及不同的时间窗口函数来创建多层次的数据分组和排序结构,以满足更为精细化的数据分析需求。

第三章 Hive时间窗口函数性能优化

3.1 性能瓶颈分析

在Hive中,时间窗口函数虽然为处理时间序列数据提供了强大的功能,但在实际应用中,也经常会面临一些性能挑战。这些挑战主要表现为数据倾斜和内存溢出等问题,它们可能严重影响查询的执行效率和稳定性。

数据倾斜是Hive查询中常见的一个性能问题,它在使用时间窗口函数时尤为突出。当数据在某个或某些特定的键值上分布不均时,就会导致某些任务处理的数据量远大于其他任务,从而造成查询性能的下降。例如,在使用ROW_NUMBER()函数对数据进行排序时,如果某个分区内的数据量过大,就可能导致该分区的处理时间远超过其他分区,从而影响整个查询的完成时间。

除了数据倾斜外,内存溢出也是时间窗口函数在执行过程中可能遇到的一个问题。由于时间窗口函数通常需要对窗口内的数据进行聚合或排序等操作,这些操作往往需要消耗大量的内存资源。当窗口的大小过大或者聚合函数的复杂度过高时,就可能导致内存不足,从而引发内存溢出错误。例如,在使用RANK()或DENSE_RANK()函数对数据进行排名时,如果窗口的大小设置得过大,就可能导致内存资源无法满足需求,从而影响查询的正常执行。

为了应对这些性能瓶颈,可以从多个方面进行优化。首先,针对数据倾斜问题,可以尝试通过调整数据的分区策略来优化数据的分布。例如,可以使用更加合理的分区键,或者增加分区的数量,以减少每个分区内的数据量。其次,针对内存溢出问题,可以通过调整Hive的配置参数来增加内存资源的分配。例如,可以增加Hive任务的内存上限,或者优化聚合函数和窗口大小的设置,以减少内存资源的消耗。

还可以考虑使用更高效的查询策略来优化时间窗口函数的执行性能。例如,可以尝试将复杂的查询拆分成多个简单的子查询,或者使用Hive的并行执行功能来提高查询的执行效率。同时,也可以利用Hive的缓存机制来减少数据的重复加载和计算,从而进一步提高查询的性能。

虽然Hive时间窗口函数在执行过程中可能会遇到一些性能瓶颈,但通过合理的优化策略和手段,仍然可以有效地提高查询的执行效率和稳定性。在实际应用中,需要根据具体的业务场景和数据特点来选择合适的优化方法,以达到最佳的性能效果。

3.2 优化策略与实践

针对Hive时间窗口函数可能遇到的性能瓶颈,有多种优化策略可以实践。这些策略旨在从数据分布、查询效率以及资源配置等多个角度出发,全面提升Hive在处理时间窗口函数时的性能。

调整窗口大小和分区策略是关键。过大的时间窗口可能会导致处理时间过长,资源消耗过大,而过小的窗口则可能无法捕捉到数据的长期趋势。因此,根据实际业务需求和数据特征,合理设置窗口大小至关重要。同时,通过PARTITION BY子句将数据分成多个分区,可以确保每个分区内的数据量相对均衡,从而避免数据倾斜问题。

优化查询语句和索引也是提升性能的有效途径。复杂的查询语句和不必要的JOIN操作都可能导致查询效率下降。因此,简化查询逻辑,避免不必要的计算,以及合理利用索引,都能显著提高查询速度。例如,对于经常用于查询条件的字段,可以建立索引以加快查询速度。

增加Hive节点的内存和计算能力也是解决性能瓶颈的重要手段。在处理大规模数据时,足够的内存和强大的计算能力是保证处理速度的关键。根据实际需求,可以考虑升级硬件或扩展集群规模。

除了上述策略外,还可以结合Hadoop集群的特性和配置进行更深入的优化。例如,调整Hadoop的MapReduce任务配置,优化数据读写速度;利用Hadoop的分布式缓存机制,减少数据传输的开销;以及合理配置YARN的资源管理器,确保任务能够高效执行。

这篇关于Hive时间窗口函数保姆级教程(最全解析、应用和优化)(持续更新)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1137960

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个