Python案例代码 | 使用正则表达式判别微博用户mbti类型

本文主要是介绍Python案例代码 | 使用正则表达式判别微博用户mbti类型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用Python爬虫采集 「微博搜索」中含mbti信息的推文, 使用正则表达式判别用户mbti类型。相比实验室做实验或者发调查问卷,这种方式收集到的用户类别是非常自然且真实的。今日爬虫不是今日主题,就不做分享了。

import pandas as pd#采集自微博搜索中含mbti类型的推文
df = pd.read_csv('mbti_test.csv')
#剔除content列中的nan数据
df.dropna(inplace=True, subset=['content'])
df

正则表达式练习题

  1. 提取含有mbti的记录

  2. 提取出含mbti类型出现的前后5个字符的文本 (前5个字符,后5个字符, 含mbti本身, 窗体最长的长度是14)

  3. 识别出含mbti的记录中对应的mbti类型, 未识别的标记为"未识别"

一、 提取含有mbti的记录

实现方法有两种

  1. pd.Series.str.contains(regex_pattern)

  2. 定义一个正则处理函数regex_func, 使用 pd.Series.apply(regex_func)

正则表达式含义

mbtis = '[infj|entp|intp|intj|entj|enfj|infp|enfp|isfp|istp|isfj|istj|estp|esfp|estj|esfj]'
  • [ 和 ]:这是字符类(character class)的起始和结束标记,表示要匹配方括号内的任何字符。

  • infj|entp|intp|intj|entj|enfj|infp|enfp|isfp|istp|isfj|istj|estp|esfp|estj|esfj:这是一个字符类内的字符集合,用于匹配MBTI类型词汇。每个MBTI类型词汇都以竖线 | 分隔,表示“或”的关系。这意味着正则表达式会匹配其中任何一个MBTI类型词汇。

  • +:这是一个量词,表示匹配前面的字符集合(MBTI类型词汇)一次或多次。它使正则表达式可以匹配包含一个或多个MBTI类型词汇的文本。

mbtis = '[infj|entp|intp|intj|entj|enfj|infp|enfp|isfp|istp|isfj|istj|estp|esfp|estj|esfj]'df.content.str.contains(mbtis)

0 True
1 True
2 True
3 True
4 True

495 False
496 False
497 False
498 False
499 False
Name: content, Length: 497, dtype: bool

import redef has_mbti(text):mbtis = '[infj|entp|intp|intj|entj|enfj|infp|enfp|isfp|istp|isfj|istj|estp|esfp|estj|esfj]+'if re.findall(mbtis, text):return Trueelse:return Falsedf.content.apply(has_mbti)

0 True
1 True
2 True
3 True
4 True

495 False
496 False
497 True
498 False
499 True
Name: content, Length: 497, dtype: bool

df['hasMBTI'] = df['content'].apply(has_mbti)
df

二、mbti前后内容

提取出含mbti类型出现的前后5个字符的文本(前5个字符,后5个字符, 含mbti本身, 窗体最长的长度是14)。

这样后续的分析任务,就可以通过查看mbti字眼前后出现的字符,来更新正则表达式。

正则表达式含义

mbti_win = "(.{0,5}(?:infj|entp|intp|intj|entj|enfj|infp|enfp|isfp|istp|isfj|istj|estp|esfp|estj|esfj).{0,5})"
  • ()这些括号用于将整个匹配结果捕获为一个分组

  • .{0,5} :这是一个量词,表示匹配前面的字符(.表示匹配任意字符)零次到五次。这部分用于匹配前面的文本,确保最多匹配前面的五个字符。

  • (?:infj|entp|intp|intj|entj|enfj|infp|enfp|isfp|istp|isfj|istj|estp|esfp|estj|esfj):这是一个非捕获分组,用于将多个MBTI类型词汇用 | 连接起来,表示匹配其中任何一个。

  • .{0,5} :这部分同样是一个量词,表示匹配后面的字符,确保最多匹配后面的五个字符。

def mbti_window(text):#识别mbti的正则表达式 mbti_win = "(.{0,5}(?:infj|entp|intp|intj|entj|enfj|infp|enfp|isfp|istp|isfj|istj|estp|esfp|estj|esfj).{0,5})"try:return re.findall(mbti_win, text)[0]except:return "未识别"df['MBTI_win'] = df['content'].apply(mbti_window)
df

三、识别mbti类型

刚刚的代码比较粗糙,只能判断文本中是否有mbti信息,但并不能判断该用户是否为某种mbti类型。

微博文本中,只有 //@ 前字符内容是微博用户所写内容。为了识别用户的mbti类型,可以先将我们看到的表达方式列举一下

  • ``我是[mbti]

  • 自己是[mbti]

  • 从[mbti]变为[mbti]

  • 一直是[mbti]

  • [mbti]我

  • 本[mbti]

可以基于此设计一个严格的正则表达式,能识别到的记录,肯定能判断该用户的mbti类型。未识别到的标记为 “未识别”

正则表达式含义

mbti_regex = "[我|自己|变成|一直|是|本]*(infj|entp|intp|intj|entj|enfj|infp|enfp|isfp|istp|isfj|istj|estp|esfp|estj|esfj)[我|俺|本|自己]*"   
  • [我|自己|变成|一直|是|本]*:这部分是一个字符集合,用于匹配前面的字符(关键词)。方括号 [...] 表示字符类,其中的字符是可选的,并且 * 表示匹配零次或多次。这意味着它可以匹配零个或多个出现在方括号中的字符,例如可以匹配"我"、“自己”、“变成”、“一直”、“是”、"本"等这些关键词。

  • (infj|entp|intp|intj|entj|enfj|infp|enfp|isfp|istp|isfj|istj|estp|esfp|estj|esfj) :这是一个分组,其中包含了MBTI类型词汇,用竖线 | 分隔,表示"或"的关系。这部分用于匹配任意一个MBTI类型词汇。

  • [我|俺|本|自己]* :这部分与第1部分类似,是一个字符集合,用于匹配后面的字符(关键词)。同样,方括号 [...] 表示字符类,其中的字符是可选的,并且 * 表示匹配零次或多次。

def identify_mbti(text):if '//@' in text:new_text = text.split('//@')[0]else:new_text = text#识别mbti的正则表达式 mbti_regex = "[我|自己|变成|一直|是|本]*(infj|entp|intp|intj|entj|enfj|infp|enfp|isfp|istp|isfj|istj|estp|esfp|estj|esfj)[我|俺|本|自己]*"try:return re.findall(mbti_regex, text)[0]except:return "未识别"#mbti类型
df['MBTI_Cat'] = df['content'].apply(identify_mbti)
df

#各类型记录数   
df['MBTI_Cat'].value_counts()   

MBTI_Cat
未识别 297
infp 35
isfj 20
enfp 18
intp 17
isfp 16
intj 14
entp 12
entj 11
infj 11
enfj 8
estj 8
istp 8
istj 7
esfp 6
estp 5
esfj 4
Name: count, dtype: int64

感兴趣的小伙伴,赠送全套Python学习资料,包含面试题、简历资料等具体看下方。

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img
img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

img

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板在这里插入图片描述
若有侵权,请联系删除

这篇关于Python案例代码 | 使用正则表达式判别微博用户mbti类型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/800562

相关文章

Python的Darts库实现时间序列预测

《Python的Darts库实现时间序列预测》Darts一个集统计、机器学习与深度学习模型于一体的Python时间序列预测库,本文主要介绍了Python的Darts库实现时间序列预测,感兴趣的可以了解... 目录目录一、什么是 Darts?二、安装与基本配置安装 Darts导入基础模块三、时间序列数据结构与

Python正则表达式匹配和替换的操作指南

《Python正则表达式匹配和替换的操作指南》正则表达式是处理文本的强大工具,Python通过re模块提供了完整的正则表达式功能,本文将通过代码示例详细介绍Python中的正则匹配和替换操作,需要的朋... 目录基础语法导入re模块基本元字符常用匹配方法1. re.match() - 从字符串开头匹配2.

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

通过Docker容器部署Python环境的全流程

《通过Docker容器部署Python环境的全流程》在现代化开发流程中,Docker因其轻量化、环境隔离和跨平台一致性的特性,已成为部署Python应用的标准工具,本文将详细演示如何通过Docker容... 目录引言一、docker与python的协同优势二、核心步骤详解三、进阶配置技巧四、生产环境最佳实践

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

MyBatis分页查询实战案例完整流程

《MyBatis分页查询实战案例完整流程》MyBatis是一个强大的Java持久层框架,支持自定义SQL和高级映射,本案例以员工工资信息管理为例,详细讲解如何在IDEA中使用MyBatis结合Page... 目录1. MyBATis框架简介2. 分页查询原理与应用场景2.1 分页查询的基本原理2.1.1 分

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

springboot中使用okhttp3的小结

《springboot中使用okhttp3的小结》OkHttp3是一个JavaHTTP客户端,可以处理各种请求类型,比如GET、POST、PUT等,并且支持高效的HTTP连接池、请求和响应缓存、以及异... 在 Spring Boot 项目中使用 OkHttp3 进行 HTTP 请求是一个高效且流行的方式。