Yelp NLP Text Classification Modeling 文本分类模型 with Prodigy

2023-10-19 07:32

本文主要是介绍Yelp NLP Text Classification Modeling 文本分类模型 with Prodigy,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

@Yelp NLP项目介绍

@文本预处理

接下来,我需要:

  1. 建立Training Set。
  2. 搭建分类模型。因为这是个练手的项目,所以我想把不同的模型都试一下。

STEP 2.1: 建立Training Set

我希望能快速得到一个规模相当的training set,大概10000个labelling。文本数据中真实包含的目标句式应该是相对占比较小的,也就是说,最终我的training set一定是不平衡的,label = 0的比例会远高于label = 1 的比例。如果我什么预处理都不做,直接随机从文本数据库中收取句子来进行标记,可以预想,得到的label = 1的结果应该很少。为了提高标记的效率,我决定,不进行随机收取,而是先通过targeted sampling,找到数据中存在的目标句式进行标记,然后再随机从剩余样本中抽取label = 0的句子。

找到目标句式的方法也很简单,主要简单的定义一个regular expression,筛选出句子中包含某些具有明确指向性的关键词即可。比如,在我感兴趣的标示位置的句子中,可能的关键词就有:

  1. a [few] block[s] away
  2. close to my
  3. walk[ed] [over/from]
  4. [live/work] nearby
  5. local
  6. neighborhood

含有上述关键词的句子,更有可能是我所感兴趣的句子。我只要写出一个筛选函数,用这个筛选函数定向地抽取待标记样本,就能够人为地提高training set中label = 1的比例。给定10000的training sample size, 我需要有效样本,即label = 1 的比例至少在10%以上,也就是说,我需要找到至少1000条我感兴趣的句型。希望我现在有的30万条用户评论中,存

这篇关于Yelp NLP Text Classification Modeling 文本分类模型 with Prodigy的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/238314

相关文章

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

使用Python实现文本转语音(TTS)并播放音频

《使用Python实现文本转语音(TTS)并播放音频》在开发涉及语音交互或需要语音提示的应用时,文本转语音(TTS)技术是一个非常实用的工具,下面我们来看看如何使用gTTS和playsound库将文本... 目录什么是 gTTS 和 playsound安装依赖库实现步骤 1. 导入库2. 定义文本和语言 3

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学

Java实现将Markdown转换为纯文本

《Java实现将Markdown转换为纯文本》这篇文章主要为大家详细介绍了两种在Java中实现Markdown转纯文本的主流方法,文中的示例代码讲解详细,大家可以根据需求选择适合的方案... 目录方法一:使用正则表达式(轻量级方案)方法二:使用 Flexmark-Java 库(专业方案)1. 添加依赖(Ma

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

Linux使用cut进行文本提取的操作方法

《Linux使用cut进行文本提取的操作方法》Linux中的cut命令是一个命令行实用程序,用于从文件或标准输入中提取文本行的部分,本文给大家介绍了Linux使用cut进行文本提取的操作方法,文中有详... 目录简介基础语法常用选项范围选择示例用法-f:字段选择-d:分隔符-c:字符选择-b:字节选择--c

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll