Python 全栈系列101 - 使用百度api识别营业执照

2024-03-03 14:50

本文主要是介绍Python 全栈系列101 - 使用百度api识别营业执照,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

说明

百度有提供营业执照的ocr,打算先试一下看看效果。从某些角度,还是感谢百度提供的免费资源的:

  • 1 当没什么时间自己做时,毕竟有一个还可以用的
  • 2 如果打算自己做,也有个参考和对比

在这里插入图片描述

内容

1 首先要获得调用权限

我很早的时候就有百度的账号,那时候设置好了,现在不太记得,有需要的同学自己试试。

2 OCR的功能

给了一些免费的配额,对我这种测试的需求来说也够了
在这里插入图片描述
如果要购买的话,一次2分8(一万次),其实还是有点小贵的。我觉得接口服务,按cpu处理时间,50ms1厘钱是比较合理的。我猜证照识别先是通过目标识别找出文本框,然后对文本框进行识别,两层模型的叠加。一共也不会超过500ms,也就是最多不应该超过1分钱(所以100万次的价格是9厘)。

不过进行优化后进行批量处理,特别是使用显卡,这个时间应该可以降一个数量级。(我没打算抢生意哈,只是估算一下)

在这里插入图片描述

3 调用

3.1 鉴权

在这里插入图片描述

  • 1 先要创建一个应用,然后里面有个人的信息。
  • 2 通过个人的信息,向百度发起一个授权请求,获得一个令牌
  • 3 使用这个令牌进行请求
3.1.1 获取令牌

文档可以参考这个,找到python的示例。
在这里插入图片描述
主要改这里(我觉得既然都文档了,还是写完整Application Key, Secret Key,或者在应用那边也附上缩写,小建议)

...dentials&client_id=【官网获取的AK】&client_secret=【官网获取的SK】'# 授权结果 access_token的有效期为30天,需要每30天进行定期更换
the_token = response.json().get('access_token')

总体上,百度api的文档还是可以的,比较简单。

3.1.2 请求解析

我稍微封装了一下过程,让调用简单一点。输入就两个参数,token和图片地址。如果真的部署为服务的化,可以改为读文件流。

import requests
import base64
import pandas as pd
# 封装一下过程
def baidu_ocr_cert(the_token, the_fpath,request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/business_license"):with open(the_fpath ,'rb') as f:img = base64.b64encode(f.read())params = {"image":img}access_token = the_tokenrequest_url = request_url + "?access_token=" + access_tokenheaders = {'content-type': 'application/x-www-form-urlencoded'}response = requests.post(request_url, data=params, headers=headers)
#     if response:
#         print (response.json())res_dict = response.json()the_key_list = list(res_dict['words_result'].keys())the_res_list = [res_dict['words_result'][x].get('words') for x in the_key_list]res_df = pd.DataFrame()res_df['识别项'] = the_key_listres_df['识别内容'] = the_res_listreturn res_df

4 调用测试

我从百度上搜索了两个营业执照测试,为了避嫌,我就不放企业名字。

4.1 模糊的证照

感受下图片的质量
在这里插入图片描述
解析结果整体上还不错,当然我们看不清的解析也是乱的
在这里插入图片描述

4.2 清晰的证照

在这里插入图片描述
此时的解析结果就好多了,但是又有另外一个问题,企业名称前面多了“副太号…”
在这里插入图片描述

4 总结

总体上百度api的调用还是比较方便的,文档写的也清晰。我大概10分钟左右就完成了调用测试。

ps: 我估计识别过程是这样的

  • 0 调整倾斜图片
  • 1 通过yolo定位关键词的坐标
  • 2 根据定位区块进行横向截取
  • 3 识别横向截取部分的问题

大概没有做仿射变换,把图片重新拉伸/压缩回去。

这篇关于Python 全栈系列101 - 使用百度api识别营业执照的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/769956

相关文章

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

prometheus如何使用pushgateway监控网路丢包

《prometheus如何使用pushgateway监控网路丢包》:本文主要介绍prometheus如何使用pushgateway监控网路丢包问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录监控网路丢包脚本数据图表总结监控网路丢包脚本[root@gtcq-gt-monitor-prome

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

SpringBoot中如何使用Assert进行断言校验

《SpringBoot中如何使用Assert进行断言校验》Java提供了内置的assert机制,而Spring框架也提供了更强大的Assert工具类来帮助开发者进行参数校验和状态检查,下... 目录前言一、Java 原生assert简介1.1 使用方式1.2 示例代码1.3 优缺点分析二、Spring Fr

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

《Androidkotlin中Channel和Flow的区别和选择使用场景分析》Kotlin协程中,Flow是冷数据流,按需触发,适合响应式数据处理;Channel是热数据流,持续发送,支持... 目录一、基本概念界定FlowChannel二、核心特性对比数据生产触发条件生产与消费的关系背压处理机制生命周期

java使用protobuf-maven-plugin的插件编译proto文件详解

《java使用protobuf-maven-plugin的插件编译proto文件详解》:本文主要介绍java使用protobuf-maven-plugin的插件编译proto文件,具有很好的参考价... 目录protobuf文件作为数据传输和存储的协议主要介绍在Java使用maven编译proto文件的插件

Python包管理工具pip的升级指南

《Python包管理工具pip的升级指南》本文全面探讨Python包管理工具pip的升级策略,从基础升级方法到高级技巧,涵盖不同操作系统环境下的最佳实践,我们将深入分析pip的工作原理,介绍多种升级方... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

SpringBoot线程池配置使用示例详解

《SpringBoot线程池配置使用示例详解》SpringBoot集成@Async注解,支持线程池参数配置(核心数、队列容量、拒绝策略等)及生命周期管理,结合监控与任务装饰器,提升异步处理效率与系统... 目录一、核心特性二、添加依赖三、参数详解四、配置线程池五、应用实践代码说明拒绝策略(Rejected