将光谱数据图片转换成数值格式

2024-08-20 19:52

本文主要是介绍将光谱数据图片转换成数值格式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 任务
  • 所需工具
  • 步骤一:安装必要的Python库
  • 步骤二:图像OCR识别
  • 步骤三:提取光谱数值并存储
  • 完整代码

任务

现测量收集到一批目标色彩样本的光谱响应数据截图(图片保存在spectrum_screenshots文件夹内,截图样例见图1)。其中,一个样本的光数据是从波长360纳米(nm)到750纳米分别测量得到的对应光强度值(实数)。
图1所示光谱数据为:7.319(360nm),7.339(370nm),6.860(380nm),…,80.(750nm);Checksum值(所有波长上光谱强度值的和)为790.337。
要求:将486张光谱数据图片转成数值格式
在这里插入图片描述

所需工具

Python: 编程语言
cnocr: 一个中文OCR工具,用于从图片中提取文本
PIL (Python Imaging Library): 用于打开和处理图片
openpyxl: 用于在Excel中创建和编辑工作表

步骤一:安装必要的Python库

在开始之前,确保你已经安装了所有必要的Python库。你可以通过以下命令安装这些库:

pip install cnocr pillow openpyxl

步骤二:图像OCR识别

我们将使用cnocr库从光谱数据图片中提取文本。由于OCR提取出的文本格式可能不一致,我们需要对其进行清理和格式化。以下是处理这些文本的代码:

import os
import re
import cnocr
from PIL import Image
from openpyxl import Workbookdef remove_spaces_around_decimal(input_str):result = []l=len(input_str)for i in range(1,l-1):if input_str[i] == ' ' and input_str[i-1]=='.':continueif input_str[i] == ' ' and input_str[i + 1] == '.':continueif input_str[i] == '.' and input_str[i + 1] == '.':continueif (input_str[i]!='.' and input_str[i]!=' 'and(input_str[i]<'0' or input_str[i]>'9'))and input_str[i + 1] == '.':continueif (input_str[i]!='.' and input_str[i]!=' 'and(input_str[i]<'0' or input_str[i]>'9'))and input_str[i - 1] == '.':continueresult.append(input_str[i])return ''.join(result)

这个函数主要用来清理OCR识别出的文本,去除多余的空格和不必要的字符,确保后续的正则表达式能准确提取数值。

步骤三:提取光谱数值并存储

我们将光谱数据图片文件夹中的每张图片转换为对应的数值格式,并将其保存到Excel文件中。以下是实现这一任务的完整代码:

def extract_float_numbers_from_images(directory):# 初始化 cnocrocr = cnocr.CnOcr()# 创建一个 Excel 工作簿wb = Workbook()ws = wb.active# 添加列标题columns = ["Filename", "360nm", "370nm", "380nm", "390nm", "400nm", "410nm", "420nm", "430nm","440nm","450nm", "460nm", "470nm", "480nm","490nm", "500nm", "510nm", "520nm", "530nm", "540nm","550nm", "560nm", "570nm", "580nm", "590nm", "600nm", "610nm", "620nm","630nm", "640nm", "650nm", "660nm", "670nm", "680nm", "690nm", "700nm", "710nm", "720nm", "730nm", "740nm", "750nm", "Checksum"]ws.append(columns)# 使用正则表达式匹配文件名中的数字部分pattern = r'\d+'# 遍历指定目录下的所有文件for filename in os.listdir(directory):# 仅处理 JPEG 格式的文件if filename.endswith(".jpg"):# 从文件名中提取数字部分match = re.match(pattern, filename)if match:file_number = match.group()file_path = os.path.join(directory, filename)# 使用 cnocr 提取文本text = ocr.ocr(Image.open(file_path))# 合并提取的文本extracted_text = ''for line in text:if 'text' in line:extracted_text += (line['text']+' ')extracted_text = remove_spaces_around_decimal(extracted_text)# 使用正则表达式匹配浮点数的模式float_numbers = re.findall(r'\d+\.\d+', extracted_text)# 创建一个列表,用于存储每行的数据row_data = [filename] + float_numbers# 如果提取的浮点数数量少于所需的列数,则补充空白while len(row_data) < len(columns):row_data.append("")# 将文件名和提取的浮点数写入 Excel 表格ws.append(row_data)# 保存 Excel 文件excel_filename = "extracted_float_numbers.xlsx"wb.save(excel_filename)print(f"Float numbers extracted from images and saved to {excel_filename}")

运行程序
将代码保存为一个Python脚本文件,并在命令行中运行:

python your_script_name.py

效果:
在这里插入图片描述

利用OCR技术从图片中提取光谱数据,并将其转换为数值格式存储在Excel中。这种方法可以用于各种场景下的数据提取和处理。

完整代码

import os
import re
import cnocr
from PIL import Image
from openpyxl import Workbook#由于使用cnocr识别出的字符串存在很多格式上的问题
#我在多次写入表格查看以及输出对照数据之后,写了一个处理这些错误格式的函数,经过函数处理之后得到的字符串基本上都可以完美的经过正则表达式的处理得到41个浮点数
def remove_spaces_around_decimal(input_str):result = []l=len(input_str)for i in range(1,l-1):if input_str[i] == ' ' and input_str[i-1]=='.':continueif input_str[i] == ' ' and input_str[i + 1] == '.':continueif input_str[i] == '.' and input_str[i + 1] == '.':continueif (input_str[i]!='.' and input_str[i]!=' 'and(input_str[i]<'0' or input_str[i]>'9'))and input_str[i + 1] == '.':continueif (input_str[i]!='.' and input_str[i]!=' 'and(input_str[i]<'0' or input_str[i]>'9'))and input_str[i - 1] == '.':continueresult.append(input_str[i])return ''.join(result)
def extract_float_numbers_from_images(directory):# 初始化 cnocrocr = cnocr.CnOcr()# 创建一个 Excel 工作簿wb = Workbook()ws = wb.active# 添加列标题columns = ["Filename", "360nm", "370nm", "380nm", "390nm", "400nm", "410nm", "420nm", "430nm","440nm","450nm", "460nm", "470nm", "480nm","490nm", "500nm", "510nm", "520nm", "530nm", "540nm","550nm", "560nm", "570nm", "580nm", "590nm", "600nm", "610nm", "620nm","630nm", "640nm", "650nm", "660nm", "670nm", "680nm", "690nm", "700nm", "710nm", "720nm", "730nm", "740nm", "750nm", "Checksum"]ws.append(columns)# 使用正则表达式匹配文件名中的数字部分pattern = r'\d+'# 遍历指定目录下的所有文件for filename in os.listdir(directory):# 仅处理 JPEG 格式的文件if filename.endswith(".jpg"):# 从文件名中提取数字部分match = re.match(pattern, filename)if match:file_number = match.group()file_path = os.path.join(directory, filename)# 使用 cnocr 提取文本text = ocr.ocr(Image.open(file_path))# 合并提取的文本extracted_text = ''for line in text:if 'text' in line:extracted_text += (line['text']+' ')extracted_text = remove_spaces_around_decimal(extracted_text)# 使用正则表达式匹配浮点数的模式float_numbers = re.findall(r'\d+\.\d+', extracted_text)# 创建一个列表,用于存储每行的数据row_data = [filename] + float_numbers# 如果提取的浮点数数量少于所需的列数,则补充空白while len(row_data) < len(columns):row_data.append("")# 将文件名和提取的浮点数写入 Excel 表格ws.append(row_data)# 保存 Excel 文件excel_filename = "extracted_float_numbers.xlsx"wb.save(excel_filename)print(f"Float numbers extracted from images and saved to {excel_filename}")# 调用函数并传入图片所在的目录路径
extract_float_numbers_from_images(r'G:\spectrum_screenshots')

这篇关于将光谱数据图片转换成数值格式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1091030

相关文章

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

python实现svg图片转换为png和gif

《python实现svg图片转换为png和gif》这篇文章主要为大家详细介绍了python如何实现将svg图片格式转换为png和gif,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录python实现svg图片转换为png和gifpython实现图片格式之间的相互转换延展:基于Py

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

HTML5表格语法格式详解

《HTML5表格语法格式详解》在HTML语法中,表格主要通过table、tr和td3个标签构成,本文通过实例代码讲解HTML5表格语法格式,感兴趣的朋友一起看看吧... 目录一、表格1.表格语法格式2.表格属性 3.例子二、不规则表格1.跨行2.跨列3.例子一、表格在html语法中,表格主要通过< tab

C#实现将Excel表格转换为图片(JPG/ PNG)

《C#实现将Excel表格转换为图片(JPG/PNG)》Excel表格可能会因为不同设备或字体缺失等问题,导致格式错乱或数据显示异常,转换为图片后,能确保数据的排版等保持一致,下面我们看看如何使用C... 目录通过C# 转换Excel工作表到图片通过C# 转换指定单元格区域到图片知识扩展C# 将 Excel