cpca库使用简明教程

2023-11-26 03:40

文章标签 使用教程简明 cpca

本文主要是介绍cpca库使用简明教程，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

cpca是chinese_province_city_area_mapper的简称，可用于处理中文地址，这里记录cpca库的主要使用方法。

pip install cpca

cpca.transform 是 cpca库的核心功能，其输入是任意可迭代对象，输出为pandas的DataFrame对象，参数及含义如下：

location_strs ：包含地址信息的字符串，是一个可迭代对象，可迭代对象的元素数量将等于输出结果中DataFrame的行数量。
umap：一个自定义的字典，用于处理“行政区”重名问题。自定义的字典应指明重名区默认对应哪个“行政省市”。另外省、市行政区域名称不存在重名问题，因此仅考虑“行政区”重名问题即可。
index：指定自定义的DataFrame的index值。
cut：是否使用分词匹配模式，默认是True，会提高处理速度。若指定False，则会采用“全文匹配的模型”，该模型下的精度会高些，但处理速度会慢些。
lookahead：默认为8个字符，可以理解为窗口大小。
pos_sensitive：默认为False，改为True时，则在输出的DataFrame中将新增三列，分别表示抽取省、市、地区的起始位置。若值为-1，表示位置为推断出来的。
open_warning: 是否显示警告信息，默认True，建议打开（当发现重名区并且不知道将其映射到哪一个市时，会将其加入警告信息并显示，打开此功能可以帮助解决数据集中的重名区问题）。

函数输入输出如下所示，信息来自官方文档：
在这里插入图片描述