tr,cut,diff(数据处理

2024-08-31 00:52
文章标签 数据处理 diff tr cut

本文主要是介绍tr,cut,diff(数据处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

tr 命令

功能:

tr 命令用于转换或删除文件中的字符。

语法:

格式:

tr [-cdst][--help][--version][第一字符集][第二字符集]  
tr [OPTION]…SET1[SET2] 

标识符:

-d:删除指定的字符。-s:压缩重复的字符为一个字符。

具体应用:

# 1. 将文件内容全部转换为大写
cat 1.txt | tr a-z A-Z
cat 1.txt | tr [:lower:] [:upper:]# 2. 将文件内容全部转换为小写
cat 1.txt | tr A-Z a-z
cat 1.txt | tr [:upper:] [:lower:]# 3. 删除文件中的数字
cat 2.txt | tr -d 0-9# 4. 生成包含大小写字母、数字、特殊字符的随机字符串
< /dev/urandom tr -dc a-zA-Z0-9-/ | head -c 12; echo# 5. 删除重复的 '0'
cat 2.txt | tr -s 0# 6. 将路径变量中的冒号替换为换行符
echo $PATH | tr ':' '\n'# 7. 删除文件中的换行符
cat 2.txt | tr -d '\n'# 8. 删除Windows文件中的 '^M' 字符
cat file | tr -d '\r'# 9. 转换指定字符串(要求相同长度)
cat 1.txt | tr 'Who' 'Why'

 cut命令

功能: 

cut命令用于显示每行从开头算起 num1 到 num2 的文字。

语法:

格式:

cut  [-bn] [file]
cut [-c] [file]
cut [-df] [file]

标识符:

# 以字节为单位切割(可能会破坏多字节字符)
cut -b 1-3 filename# 以字符为单位切割(适合处理多字节字符)
cut -c 1-3 filename# 使用自定义分隔符切割(例如逗号分隔的字段)
cut -d ',' -f 2 filename# 防止 -b 破坏多字节字符(跳过被破坏的字符)
cut -b 1-3 -n filename

diff命令

功能:

diff 命令用于比较文件的差异

语法:

标识符:

# `diff` 用于比较文件或目录的差异。
# 常用选项:
# - `-u`:显示统一格式的差异。
# - `-q`:仅显示文件是否不同。
# - `-r`:递归比较目录。
# - `--side-by-side`:并排显示差异。# 自定义格式:
# - `--old-group-format=FORMAT`:指定旧文件差异的格式。
# - `--new-group-format=FORMAT`:指定新文件差异的格式。
# - `--unchanged-group-format=FORMAT`:指定未更改部分的格式(为空字符串表示不显示未更改部分)。

具体应用: 

# 1. 显示文件差异,类似于统一格式
diff -u <(cat a.txt) <(cat whole.txt)# 示例输出:
# --- /dev/fd/63
# +++ /dev/fd/62
# @@ -1,4 +1,7 @@
#  apple
#  banana
#  cherry
#  date
# +elderberry
# +fig
# +grape# 2. 并排显示两个文件的差异
diff --side-by-side <(cat a.txt) <(cat whole.txt)# 示例输出:
# apple                       | apple
# banana                      | banana
# cherry                      | cherry
# date                        | date
#                            > elderberry
#                            > fig
#                            > grape

这篇关于tr,cut,diff(数据处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1122420

相关文章

Python xmltodict实现简化XML数据处理

《Pythonxmltodict实现简化XML数据处理》Python社区为提供了xmltodict库,它专为简化XML与Python数据结构的转换而设计,本文主要来为大家介绍一下如何使用xmltod... 目录一、引言二、XMLtodict介绍设计理念适用场景三、功能参数与属性1、parse函数2、unpa

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

【MRI基础】TR 和 TE 时间概念

重复时间 (TR) 磁共振成像 (MRI) 中的 TR(重复时间,repetition time)是施加于同一切片的连续脉冲序列之间的时间间隔。具体而言,TR 是施加一个 RF(射频)脉冲与施加下一个 RF 脉冲之间的持续时间。TR 以毫秒 (ms) 为单位,主要控制后续脉冲之前的纵向弛豫程度(T1 弛豫),使其成为显著影响 MRI 中的图像对比度和信号特性的重要参数。 回声时间 (TE)

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

QT 编译报错:C3861: ‘tr‘ identifier not found

问题: QT 编译报错:C3861: ‘tr’ identifier not found 原因 使用tr的地方所在的类没有继承自 QObject 类 或者在不在某一类中, 解决方案 就直接用类名引用 :QObject::tr( )

【程序分享1】第一性原理计算 + 数据处理程序

【1】第一性原理计算 + 数据处理程序 SMATool 程序:VASP + QE + 零温 + 有限温度 + 拉伸、剪切、双轴、维氏硬度的计算 ElasTool v3.0 程序:材料弹性和机械性能的高效计算和可视化工具包 VELAS 程序:用于弹性各向异性可视化和分析 Phasego 程序:用于自动计算和绘制相图 可视化软件 GDIS 软件:第一原理计算/VASP + 结构预测/USP

数据处理与数据填充在Pandas中的应用

在数据分析和机器学习项目中,数据处理是至关重要的一步。Pandas作为Python中用于数据分析和操作的一个强大库,提供了丰富的功能来处理和清洗数据。本文将深入探讨Pandas在数据处理,特别是数据填充方面的应用。 在实际的数据集中,缺失值(Missing Values)或异常值(Outliers)是常见的问题。这些不完整或错误的数据如果不加以处理,会严重影响数据分析的准确性和机器学习模型的性能

【控制算法 数据处理】一阶滤波算法

简单介绍: 一阶滤波算法是比较常用的滤波算法,它的滤波结果=a*本次采样值+(1-a)*上次滤波结果,其中,a为0~1之间的数。一阶滤波相当于是将新的采样值与上次的滤波结果计算一个加权平均值。a的取值决定了算法的灵敏度,a越大,新采集的值占的权重越大,算法越灵敏,但平顺性差;相反,a越小,新采集的值占的权重越小,灵敏度差,但平顺性好。优点是对周期干扰有良好的抑制作用,适用于波动频率比较高的场合,它

做一个问卷考试,标准答案对比用户填写的答案,array_diff 进行差集比对

if( empty(array_diff($answer_mark, $answer)) && empty(array_diff( $answer,$answer_mark))){//用户答题正确}else{// 答题错误} 做一个问卷考试,标准答案对比用户填写的答案,array_diff  进行差集比对   如用户填写的答案变量为answer   标准答案为answer_mark

Flink事件时间、水印和迟到数据处理

事件时间与水印 所谓事件时间,就是Flink DataStream中的数据元素自身带有的、在其实际发生时记录的时间戳,具有业务含义,并与系统时间独立。很显然,由于外部系统产生的数据往往不能及时、按序到达Flink系统,所以事件时间比处理时间有更强的不可预测性。为了能够准确地表达事件时间的处理进度,就必须用到水印。 Flink水印的本质是DataStream中的一种特殊元素,每个水印都携带有一个