Linux系统sort排序与uniq去重

2024-06-11 00:36
文章标签 linux 系统 排序 sort uniq

本文主要是介绍Linux系统sort排序与uniq去重,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Linux系统sort排序与uniq去重

工作中数据太多太杂,不便于查看分析。这时是可以采用sort将数据排序,同时可以配合uniq命令进行去重。

场景:云平台中,日常工作包含巡检工作,是通过事先编写好的巡检脚本去检测云平台的和Node节点(Linux系统)的健康情况。有问题的信息会打印保存在日志中,这里面包含了很多IP(Node),而且具有大量重复IP(成百上千个IP等)。

为了定位到哪些Node节点存在问题以及都有什么问题。为了便于分析查看,需要对其IP进行排序以及去重处理。

sort 命令

sort 命令用于对文本数据进行排序

基本语法

1sort [选项]... [文件名]

如果没有指定文件名,sort 命令会从标准输入(stdin)读取数据,这使得它能够方便地与其他命令通过管道(|)组合使用

常用选项

  • -n:按数值大小进行排序
  • -r–reverse:逆序排序
  • -t:指定分隔符,用于字段排序(例如 -t',' 使用逗号作为分隔符)
  • -k:指定排序的字段,格式为 -kN[,M],其中 N 是字段编号,M 可选,表示排序结束的字段,可以用于排序跨越多个字段
  • -u–unique:输出唯一行,去除重复行
  • -m–merge:合并已排序的文件
  • -o:将排序结果输出到文件而不是标准输出,例如 -o sorted.txt

示例

  • 简单排序:按字母顺序排序文件内容

    $ cat file.txt
    d
    c
    b
    a
    h
    e
    # 字母顺序
    $ sort file.txt
    a
    b
    c
    d
    e
    h
    
  • 数值排序:按数值从小到大排序

    $ cat values.txt
    23
    123
    456
    88
    21
    3
    # 按数值从小到大排序
    $ sort -n values.txt
    3
    21
    23
    88
    123
    456
    
  • 逆序排序:按字母顺序逆序排序

    $ cat file.txt
    d
    c
    b
    a
    h
    j
    e
    q
    e
    # 按字母顺序逆序排序
    $ sort -r file.txt
    q
    j
    h
    e
    e
    d
    c
    b
    a
    
  • 字段排序:按文件中第二列排序

    $ cat students.txt
    Alice,90
    Bob,85
    Charlie,92
    David,88
    Eva,95
    Alice,87
    # 按文件中第二列排序
    $ sort -t ',' -n -k2 students.txt
    Bob,85
    Alice,87
    David,88
    Alice,90
    Charlie,92
    Eva,95
    
  • 去重并排序:先去重后排序

    $ sort -u input.txt | sort
    2
    3
    e
    # 先去重后排序
    $ cat input.txt
    e
    e
    2
    2
    3
    3
    

uniq 命令

uniq 命令,用于去除文件中的重复内容行

基本用法

  • 语法:

    uniq [选项]... [输入文件]
    
  • 特点:

    • 默认情况下,uniq 只能识别并处理相邻的重复行。这意味着在处理文件之前,如果要删除所有重复行而不考虑它们的位置,通常需要先使用 sort 命令对文件进行排序。
    • 如果不指定输入文件,uniq 会从标准输入(stdin)读取数据,这使得它能很好地与其他命令通过管道(|)结合使用。

常用选项

  • -c–count:在每行前加上该行在输入中出现的次数。
  • -d–repeated:只显示重复的行。
  • -u–unique:只显示唯一的行,即不重复的行。
  • -i–ignore-case:忽略大小写差异。
  • -f N–skip-fields=N:跳过每行开始的N个字段。
  • -s N–skip-chars=N:跳过每行开始的N个字符。
  • -w N–check-chars=N:仅比较每行的前N个字符。

示例

  1. 删除相邻的重复行

    $ cat  input.txt
    e
    e
    2
    2
    3
    3
    # 删除相邻的重复行
    $ uniq input.txt
    e
    2
    3
    
  2. 统计每行出现次数

    $ cat  input.txt
    e
    e
    2
    2
    3
    3
    $ uniq -c input.txt2 e2 22 3
    
  3. 只显示唯一的行

    $ cat input.txt
    e
    e
    2
    2
    3
    3
    ww
    # 只显示唯一的行
    $ uniq -u input.txt
    ww
    
  4. 结合 sort 去除所有重复行

    $ cat data.txt
    apple
    banana
    orange
    apple
    grape
    banana
    cherry# 结合 sort 去除所有重复行
    $ sort data.txt | uniq > unique_data.txt
    $ cat unique_data.txt
    apple
    banana
    cherry
    grape
    orange
    
  5. 忽略大小写去重

    $ cat names.txt
    Alice
    alice
    Bob
    bob
    Charlie
    charlie
    Alice
    # 忽略大小写去重
    $ sort -f names.txt | uniq -i
    Alice
    Bob
    Charlie
    

End

这篇关于Linux系统sort排序与uniq去重的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1049720

相关文章

Linux中SSH服务配置的全面指南

《Linux中SSH服务配置的全面指南》作为网络安全工程师,SSH(SecureShell)服务的安全配置是我们日常工作中不可忽视的重要环节,本文将从基础配置到高级安全加固,全面解析SSH服务的各项参... 目录概述基础配置详解端口与监听设置主机密钥配置认证机制强化禁用密码认证禁止root直接登录实现双因素

在Linux终端中统计非二进制文件行数的实现方法

《在Linux终端中统计非二进制文件行数的实现方法》在Linux系统中,有时需要统计非二进制文件(如CSV、TXT文件)的行数,而不希望手动打开文件进行查看,例如,在处理大型日志文件、数据文件时,了解... 目录在linux终端中统计非二进制文件的行数技术背景实现步骤1. 使用wc命令2. 使用grep命令

一文详解Java Stream的sorted自定义排序

《一文详解JavaStream的sorted自定义排序》Javastream中的sorted方法是用于对流中的元素进行排序的方法,它可以接受一个comparator参数,用于指定排序规则,sorte... 目录一、sorted 操作的基础原理二、自定义排序的实现方式1. Comparator 接口的 Lam

Linux如何快速检查服务器的硬件配置和性能指标

《Linux如何快速检查服务器的硬件配置和性能指标》在运维和开发工作中,我们经常需要快速检查Linux服务器的硬件配置和性能指标,本文将以CentOS为例,介绍如何通过命令行快速获取这些关键信息,... 目录引言一、查询CPU核心数编程(几C?)1. 使用 nproc(最简单)2. 使用 lscpu(详细信

linux重启命令有哪些? 7个实用的Linux系统重启命令汇总

《linux重启命令有哪些?7个实用的Linux系统重启命令汇总》Linux系统提供了多种重启命令,常用的包括shutdown-r、reboot、init6等,不同命令适用于不同场景,本文将详细... 在管理和维护 linux 服务器时,完成系统更新、故障排查或日常维护后,重启系统往往是必不可少的步骤。本文

Mac系统下卸载JAVA和JDK的步骤

《Mac系统下卸载JAVA和JDK的步骤》JDK是Java语言的软件开发工具包,它提供了开发和运行Java应用程序所需的工具、库和资源,:本文主要介绍Mac系统下卸载JAVA和JDK的相关资料,需... 目录1. 卸载系统自带的 Java 版本检查当前 Java 版本通过命令卸载系统 Java2. 卸载自定

基于Linux的ffmpeg python的关键帧抽取

《基于Linux的ffmpegpython的关键帧抽取》本文主要介绍了基于Linux的ffmpegpython的关键帧抽取,实现以按帧或时间间隔抽取关键帧,文中通过示例代码介绍的非常详细,对大家的学... 目录1.FFmpeg的环境配置1) 创建一个虚拟环境envjavascript2) ffmpeg-py

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删

Linux链表操作方式

《Linux链表操作方式》:本文主要介绍Linux链表操作方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、链表基础概念与内核链表优势二、内核链表结构与宏解析三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势六、典型应用场景七、调试技巧与

基于Python实现一个简单的题库与在线考试系统

《基于Python实现一个简单的题库与在线考试系统》在当今信息化教育时代,在线学习与考试系统已成为教育技术领域的重要组成部分,本文就来介绍一下如何使用Python和PyQt5框架开发一个名为白泽题库系... 目录概述功能特点界面展示系统架构设计类结构图Excel题库填写格式模板题库题目填写格式表核心数据结构