Python:使用 jionlp和cpca 实现国内地址文本解析

2024-03-22 19:20

本文主要是介绍Python:使用 jionlp和cpca 实现国内地址文本解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

目录

    • 使用 jionlp解析国内地址文本
    • 使用 cpca 实现解析国内地址文本
    • 总结

使用 jionlp解析国内地址文本

jionlp: 中文 NLP 预处理、解析工具包,准确、高效、易用

  • github: https://github.com/dongrixinyu/JioNLP
  • 文档:http://www.jionlp.com/

使用示例

import jsonimport jionlp as jiolst = ['四川省成都市武侯区红牌楼街19号红星大厦9楼2号','杭州市滨江区网商路599号','东城区和平里街道','上海市徐汇区xx小区'
]for text in lst:res = jio.parse_location(text)print(json.dumps(res, ensure_ascii=False, indent=2))

解析结果

{"province": "四川省","city": "成都市","county": "武侯区","detail": "红牌楼街19号红星大厦9楼2号","full_location": "四川省成都市武侯区红牌楼街19号红星大厦9楼2号","orig_location": "四川省成都市武侯区红牌楼街19号红星大厦9楼2号"
}
{"province": "浙江省","city": "杭州市","county": "滨江区","detail": "网商路599号","full_location": "浙江省杭州市滨江区网商路599号","orig_location": "杭州市滨江区网商路599号"
}
{"province": "北京市","city": "北京市","county": "东城区","detail": "和平里街道","full_location": "北京市东城区和平里街道","orig_location": "东城区和平里街道"
}
{"province": "上海市","city": "上海市","county": "徐汇区","detail": "xx小区","full_location": "上海市徐汇区xx小区","orig_location": "上海市徐汇区xx小区"
}

使用 cpca 实现解析国内地址文本

cpca:一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块

目前仅仅支持python3

github: https://github.com/DQinYuan/chinese_province_city_area_mapper

import jsonimport cpcalst = ['四川省成都市武侯区红牌楼街19号红星大厦9楼2号','杭州市滨江区网商路599号','东城区和平里街道','上海市徐汇区xx小区'
]df = cpca.transform(lst)
print(json.dumps(df.to_dict(), ensure_ascii=False, indent=2))
     省    市    区               地址  adcode
0  四川省  成都市  武侯区  红牌楼街19号红星大厦9楼2号  510107
1  浙江省  杭州市  滨江区          网商路599号  330108
2  北京市  市辖区  东城区            和平里街道  110101
3  上海市  市辖区  徐汇区             xx小区  310104

转为json数据

{"省": {"0": "四川省","1": "浙江省","2": "北京市","3": "上海市"},"市": {"0": "成都市","1": "杭州市","2": "市辖区","3": "市辖区"},"区": {"0": "武侯区","1": "滨江区","2": "东城区","3": "徐汇区"},"地址": {"0": "红牌楼街19号红星大厦9楼2号","1": "网商路599号","2": "和平里街道","3": "xx小区"},"adcode": {"0": "510107","1": "330108","2": "110101","3": "310104"}
}

总结

通过比对,发现两者的解析结果相差不是太大

库名star
JioNLP2.9K
cpca1.6K

这篇关于Python:使用 jionlp和cpca 实现国内地址文本解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/836037

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi