正则将段落分割成句子

2024-05-06 20:44
文章标签 分割 正则 段落 句子

本文主要是介绍正则将段落分割成句子,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这里分割段落不区分中英文标点,你可以根据需求改

分割后标点跟随句子后面

def split_sentences_keep_delimiter(text):pattern = r'[^。!!??::;;,,]+[。!!??::;;,,]'sentences = re.findall(pattern, text)last_sentence = re.sub(r'[。!!??::;;;,,]', '', text)if last_sentence and not re.search(pattern, last_sentence):sentences.append(last_sentence.strip())return sentences[:len(sentences)-1]

在这里插入图片描述

分割后去掉标点只保留文本

import redef split_text_with_punctuation(text):split_sentences = re.split(r'[。.!!??::;;,,]', text)return split_sentencestext = "你好,世界!这是个测试。看看是否有效?当然,它会的。"
print(split_text_with_punctuation(text))

在这里插入图片描述

分割后标点和文本分开

import redef split_text_with_punctuation(text):split_sentences = re.split(r'([。.!!??::;;,,])', text)return split_sentencestext = "你好,世界!这是个测试。看看是否有效?当然,它会的。"
print(split_text_with_punctuation(text))

在这里插入图片描述

这篇关于正则将段落分割成句子的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/965334

相关文章

Android 常用正则工具

支持 手机号、座机号、身份证、微信号、密码、QQ、邮箱正则 import java.util.regex.Pattern;public class Validator {/*** 手机号正则*/public static String REGEX_PHONE = "^(13[0-9]|14[5-9]|15[0-3,5-9]|16[2,5,6,7]|17[0-8]|18[0-9]|19[1,3,5

leetcode刷题(95)——416. 分割等和子集

给定一个只包含正整数的非空数组。是否可以将这个数组分割成两个子集,使得两个子集的元素和相等。 注意: 每个数组中的元素不会超过 100 数组的大小不会超过 200 示例 1: 输入: [1, 5, 11, 5]输出: true解释: 数组可以分割成 [1, 5, 5] 和 [11]. 示例 2: 输入: [1, 2, 3, 5]输出: false解释: 数组不能分割成两个元素和相等的子

机器学习算法(二):1 逻辑回归的从零实现(普通实现+多项式特征实现非线性分类+正则化实现三个版本)

文章目录 前言一、普通实现1 数据集准备2 逻辑回归模型3 损失函数4 计算损失函数的梯度5 梯度下降算法6 训练模型 二、多项式特征实现非线性分类1 数据准备与多项式特征构造2 逻辑回归模型 三、逻辑回归 --- 正则化实现1 数据准备2 逻辑回归模型3 正则化损失函数4 计算损失函数的梯度5 梯度下降6 训练模型 总结 前言 今天我们开始介绍逻辑回归的从零开始实现代码了,

编写一个正则表达式:检查一个句子是否以大写字母开头,以句号结尾.

package 正则表达式;import java.util.regex.Pattern;public class Test2 {public static void main(String[] args) {String len="^[A-Z].*[\\.]$";String s1="A line terminator.";String s2="Wangdan1600";String s3="a

细胞核的分割与分类模型·hover net| 补充文档

小罗碎碎念 这期推文算是hover net系列的一个补充文档,把几个非常重要的脚本拿出来单独做了一个分析,感兴趣的自取。 extract_patches.pyconfig.pydataset.pyopt.pyrun_infer.py 一、extract_patches.py 1-1:加载和处理图像数据集 注意 dataset属于自建函数,所以一定要保证这个文件与你的代码执行文

第六章线性模型选择+正则化

目录 什么是正则化(防止过拟合) 正则化的作用 正则化参数λ 第一题 第二题 回答 第三题 回答 第四题 回答 什么是正则化(防止过拟合) 正则化(Regularization)是指在机器学习和统计学中,通过引入额外的约束或惩罚项来防止模型过拟合的一种技术。过拟合是指模型在训练数据上表现很好,但在测试数据或新数据上表现较差的现象。正则化通过限制模型的复杂度,从而提高模型

基于matlab的K-means聚类图像分割

1 原理 K-means聚类算法在图像分割中的应用是基于一种无监督的学习方法,它将图像中的像素点或特征区域划分为K个不同的簇或类别。以下是K-means聚类算法用于图像分割的原理,包括步骤和公式: 1.1 原理概述 选择簇的数量(K): 首先,用户需要指定要将图像数据分成多少个簇(即K的值)。初始化聚类中心: 随机选择K个像素点作为初始聚类中心。分配数据点到最近的聚类中心: 对于图像中的每个

【yolov8语义分割】跑通:下载yolov8+预测图片+预测视频

1、下载yolov8到autodl上 git clone https://github.com/ultralytics/ultralytics 下载到Yolov8文件夹下面 另外:现在yolov8支持像包一样导入,pip install就可以   2、yolov8 语义分割文档 看官方文档:主页 -Ultralytics YOLO 文档 还能切换成中文版本,真友好。 看以下y

图像分割(四)---(图像显示、灰度直方图和三维灰度图综合分析选取最佳分割方法)

一、引言        对彩色图像进行分割的一种常用方法,是先把彩色图像转灰度图像,然后再选择合适的阈值进行二值分割。但有时彩色图像转灰度图像后不具有典型的双峰特性,二值分割效果不好。本文章提出一种确定彩色图像分割方法的新思路。首先读入一幅彩色图像fruit.jpg,然后对其各通道的灰度直方图进行分析,并使用imtool进行分析,利用surf绘制R-B的三维灰度图(水果的灰度值明显在背景上方,为

JavaScript各种基础对象:(8)RegExp(正则)对象

目录 1 RegExp(正则表达式)概述 1.1 新建正则表达:一种是使用字面量,以斜杠表示开始和结束 1.2 新建正则表达: 一种是使用RegExp构造函数 1.2.1 RegExp构造函数还可以接受第二个参数,表示修饰符。 2 正则对象的属性和方法 2.1 属性 2.1.1 一类是修饰符相关 2.1.2 另一类是与修饰符无关的属性 2.2 方法 2.2.1 test()