[汉字编码报错] UnicodeEncodeError- 'ascii' codec can't encode characters in position 0-1- ordinal not in r

本文主要是介绍[汉字编码报错] UnicodeEncodeError- 'ascii' codec can't encode characters in position 0-1- ordinal not in r,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原始代码

# -*- coding:utf-8 -*-import pandas as pd
import jieba
def cut_msg(ustr):# ustr = ustr.encode("raw_unicode_escape").decode("raw_unicode_escape").encode("utf8")return " ".join(jieba.lcut(str(ustr)))fp = "gray.xlsx"
df = pd.read_excel(fp)
df["msg"] = df["msg"].map(cut_msg)
li = df["msg"]
with file(fp.replace(".xlsx", ".txt"), "wb") as wf:for e in li:wf.write(e.encode("utf8")+"\n")

报错信息

---------------------------------------------------------------------------
UnicodeEncodeError                        Traceback (most recent call last)
<ipython-input-28-b71365cb72a8> in <module>()1 fp = "gray.xlsx"2 df = pd.read_excel(fp)
----> 3 df["msg"] = df["msg"].map(cut_msg)4 li = df["msg"]5 with file(fp.replace(".xlsx", ".txt"), "wb") as wf:/Users/yipu.si/anaconda/lib/python2.7/site-packages/pandas/core/series.pyc in map(self, arg, na_action)2156         else:2157             # arg is a function
-> 2158             new_values = map_f(values, arg)2159 2160         return self._constructor(new_values,pandas/_libs/src/inference.pyx in pandas._libs.lib.map_infer (pandas/_libs/lib.c:66440)()<ipython-input-26-f92cd72f89b6> in cut_msg(ustr)4 import jieba5 def cut_msg(ustr):
----> 6     return " ".join(jieba.lcut(str(ustr)))7 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

解决方案

加入编码和解码语句
ustr.encode("raw\_unicode\_escape").decode("raw\_unicode\_escape").encode("utf8") # 这里的 utf8 根据实际数据编码而定

如下:

# -*- coding:utf-8 -*-import pandas as pd
import jieba
def cut_msg(ustr):ustr = ustr.encode("raw_unicode_escape").decode("raw_unicode_escape").encode("utf8") # 这里的 utf8 根据实际数据编码而定return " ".join(jieba.lcut(str(ustr)))

后记

汉字编码问题一直困扰着处理文本数据的童鞋,我也在不断探索中,在此抛砖引玉,往路过大神指点迷津。

这篇关于[汉字编码报错] UnicodeEncodeError- 'ascii' codec can't encode characters in position 0-1- ordinal not in r的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/561540

相关文章

idea maven编译报错Java heap space的解决方法

《ideamaven编译报错Javaheapspace的解决方法》这篇文章主要为大家详细介绍了ideamaven编译报错Javaheapspace的相关解决方法,文中的示例代码讲解详细,感兴趣的... 目录1.增加 Maven 编译的堆内存2. 增加 IntelliJ IDEA 的堆内存3. 优化 Mave

如何解决mmcv无法安装或安装之后报错问题

《如何解决mmcv无法安装或安装之后报错问题》:本文主要介绍如何解决mmcv无法安装或安装之后报错问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mmcv无法安装或安装之后报错问题1.当我们运行YOwww.chinasem.cnLO时遇到2.找到下图所示这里3.

浅谈配置MMCV环境,解决报错,版本不匹配问题

《浅谈配置MMCV环境,解决报错,版本不匹配问题》:本文主要介绍浅谈配置MMCV环境,解决报错,版本不匹配问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录配置MMCV环境,解决报错,版本不匹配错误示例正确示例总结配置MMCV环境,解决报错,版本不匹配在col

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突:NoSuchMethodError 的终极解法2. Bean注入失败:No qu

springboot报错Invalid bound statement (not found)的解决

《springboot报错Invalidboundstatement(notfound)的解决》本文主要介绍了springboot报错Invalidboundstatement(not... 目录一. 问题描述二.解决问题三. 添加配置项 四.其他的解决方案4.1 Mapper 接口与 XML 文件不匹配

java常见报错及解决方案总结

《java常见报错及解决方案总结》:本文主要介绍Java编程中常见错误类型及示例,包括语法错误、空指针异常、数组下标越界、类型转换异常、文件未找到异常、除以零异常、非法线程操作异常、方法未定义异常... 目录1. 语法错误 (Syntax Errors)示例 1:解决方案:2. 空指针异常 (NullPoi

SpringBoot项目启动报错"找不到或无法加载主类"的解决方法

《SpringBoot项目启动报错找不到或无法加载主类的解决方法》在使用IntelliJIDEA开发基于SpringBoot框架的Java程序时,可能会出现找不到或无法加载主类com.example.... 目录一、问题描述二、排查过程三、解决方案一、问题描述在使用 IntelliJ IDEA 开发基于

关于Docker Desktop的WSL报错问题解决办法

《关于DockerDesktop的WSL报错问题解决办法》:本文主要介绍关于DockerDesktop的WSL报错问题解决办法的相关资料,排查发现是因清理%temp%文件夹误删关键WSL文件,... 目录发现问题排查过程:解决方法其实很简单:重装之后再看就能够查到了:最后分享几个排查这类问题的小www.cp

Pycharm安装报错:Cannot detect a launch configuration解决办法

《Pycharm安装报错:Cannotdetectalaunchconfiguration解决办法》本文主要介绍了Pycharm安装报错:Cannotdetectalaunchconfigur... 本文主要介绍了Pycharm安装报错:Cannot detect a launch configuratio

IDEA编译报错“java: 常量字符串过长”的原因及解决方法

《IDEA编译报错“java:常量字符串过长”的原因及解决方法》今天在开发过程中,由于尝试将一个文件的Base64字符串设置为常量,结果导致IDEA编译的时候出现了如下报错java:常量字符串过长,... 目录一、问题描述二、问题原因2.1 理论角度2.2 源码角度三、解决方案解决方案①:StringBui