首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
词库专题
【自然语言处理 词库建设】怎样将搜狗的细胞词库scel格式转化成txt格式
搜狗词库:https://pinyin.sogou.com/dict/ 1、先下载搜狗词库到本地,文件格式为.scel后缀 2、利用python3 自动转换成txt python3版本: # -*- coding:utf-8 -*-import structimport os# 由于原代码不适用python3且有大量bug# 以及有函数没有必要使用且一些代码书写不太规范或冗余#在原有
阅读更多...
关于助记词,词库的讨论
我有个想法,既然私钥碰撞的难度大。 -seed-(path+masterkey)-privatekey-publickey-address 通过反推的难度大,那我可以尝试使用助记词碰撞 就例如,我生成1000个eth地址 1000个地址的助记词全部拿到,然后去重。 这样是不是就能得到部分生成助记词的词库。 拿到词库后分组合,开多个程序去跑,^12,搞几百万个,肯定能碰出来。
阅读更多...
apdplat.word.WordSegmenter分词功能使用自有词库,实现过滤功能,可是实际上,导致的结果差强人意,没办法只能使用JDK的自带过滤的功能
WOrd的分词功能,自定义的词库,可以使用自定义的,可是实际上自带的词库实在是无法删除,导致的分词的效果很差劲 import com.alibaba.fastjson.JSON;import org.apache.commons.lang3.StringUtils;import org.apdplat.word.WordSegmenter;import org.apdplat.word.
阅读更多...
我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c、java、C#、delphi、js调用范例
我用纯C语言开发的中英文混合分词服务器3.0正式发布,词库190多万词,每秒切分5万+,同时提供 c、java、C#、delphi、js调用范例 百万商业圈中英文混合分词服务器3.0正式发布, 绝对稳定高效,分词库扩大到了190多万词汇, 开发语言:C语言 编译器:GCC 测试环境:xp、win2000、win2003、win7、win2008、win8 质量测试:用例共
阅读更多...
AI英语学习助手-帮助建立词库和句子-极简安装(python基于Django和 OpenAI GPT API的网站程序)
AI英语学习助手-帮助建立词库和句子-极简安装(python基于Django和 OpenAI GPT API的网站程序) 学了很久的英语,但是发现还是被单词困住了,天天查句子查单词太麻烦,现在有了Chat GPT,能够很好得帮助学习英语,在github上面找了一些开源的,但是觉得做的不太好,因此自己开发一个。 项目地址: https://github.com/linharrrrrt/AI_En
阅读更多...
搜狗输入法导入Google词库bug
记得大学的时候都是使用的紫光拼音输入法,后来听说搜狗拼音不错,于是大四的时候使用了一下搜狗输入法,当时感觉还不错。不久Google也推出了自己的输入法,由于Google词库与帐户绑定的特点,非常适合与我白天在公司使用电脑,晚上回家在家使用电脑的情况,于是就换成了Google拼音输入法。最近又听朋友说搜狗拼音输入法做的很好很强大了,而且也可以将词库与帐号绑定,于是决定试一试。 今天将搜狗拼音输入法
阅读更多...
新浪出输入法了,深蓝词库转换更新到1.3.1——增加对新浪拼音输入法的支持
新浪最近出了自己的输入法,具体介绍我就不说了,参见这里。由于之前一直做深蓝词库转换的工具,目前已经支持了大部分主流的输入法词库的转换,既然出了一个新的输入法,那么肯定要增加对这个输入法的词库的支持了。 新浪输入法虽然才发布第一个版本,功能还不够强大,但是幸好支持了词库的导入和导出功能(我目前拿到的是0.9内测版,1.0正式版由于网站挂了,没有下载到,词库功能上应该不会有什么变化)。如果我们想尝鲜
阅读更多...
深蓝词库转换1.3版本发布——增强单词注音功能
“深蓝词库转换”是我在闲暇时写的一个词库转换程序,实现了各种输入法的用户词库、网络词库(细胞词库)之间的相互转换。 目前支持的输入法有: PC端: *搜狗拼音 *QQ拼音 *QQ五笔(纯汉字) *谷歌拼音 *搜狗五笔 *紫光拼音 *拼音加加 手机端: *QQ手机拼音 *百度手机拼音 由于工作和个人的原因,所以深蓝词库转换很久很久没有更新了,趁着这个国庆有时间,所以对该小
阅读更多...
IK-analyzer添加搜狗词库
1:从http://pinyin.sogou.com/dict/下载选择的细胞词库 2:用深蓝词库转换工具提取出txt文本 3:用ultraedit将txt文本保存为无bom utf-8格式,dos换行 4:在solr的WEB-INF下创建classes目录 5:将utf-8格式的txt词库拷贝到solr的WEB-INF/classes目录 6:在WEB-INF/classes创建IKA
阅读更多...
用python创建自己的单词词库,方便背单词
基本思路:以COCA两万单词表为基础,用python爬取金山词霸的单词词性,词义,音频分别存入sqllite。背单词的时候根据需要自定义数据的选择方式。 效果如下: 代码写的比较随意,还请见谅。 创建数据库 cu.execute('create table test (id INTEGER PRIMARY KEY AUTOINCREMENT,dc varchar(20),cx varch
阅读更多...
python文本字词分割jieba、词库云WordCloud
目录 字词分割 词库云 词库云参数 词库云方法 字词分割 下载安装库:pip install jieba jieba库的三种模式 jieba.lcut(text) # 精准模式:将文本精确切分,不存在冗余的单词jieba.lcut(text, cut_all=True) # 全模式:将所有可能的词语扫描出来,存在冗余jieba.lcut_for_search(te
阅读更多...
记录一次chatGPT人机协同实战辅助科研——根据词库自动进行情感分析
有一个Excel中的一列,读取文本判断文本包含积极情感词.txt和消极情感词.txt的个数,分别生成两列统计数据 请将 ‘your_file.xlsx’ 替换为你的Excel文件名,'Your Text Column’替换为包含文本的列名。 这个程序首先读取了积极和消极情感词,并定义了两个函数来统计文本中这些词的数量。然后,它使用这两个函数来创建新的列,并将结果保存为一个新的Excel文
阅读更多...
AI虚拟主播系统+智能交互+AI词库+虚拟形象 附带完整的搭建教程
近几年电商直播带货热潮持高不跌,很多商家企业都会选择线上直播卖产品,与此同时,虚拟主播开始盛行,与真人主播相比,品牌虚拟主播无档期风险、离职风险、人设稳定更可控。 AI虚拟主播的不是为了取代真人主播而开发,而是为了实现一天24小时不间断直播!在真人主播下播后,虚拟主播多播20个小时让直播间得到充分曝光!解决真人主播长时间开播难题,降低人工成本,提升直播效率,为用户提供更灵活的观看时间和购物体验!
阅读更多...
云词库的安装和使用
词云库 (1)安装:pip install wordcloud (2)常规方法: 配置对象参数:w=wordcloud.WordCloud (width,height,min_font_size,max_font,font_step,font_pash,max_words,background_color,mask) 加载词韵文本:
阅读更多...
Mac版R语言(六)文本挖掘(用户词库的导入、批量导入搜狗词库)
R语言问题讨论交流,欢迎关注我的新浪微博:Jenny爱学习 文本挖掘应用的博客将分4个部分分别讨论完成,本篇将完成part 1的详细project: 用户字典批量安装,自定义分词词库,自建分词packages的安装jiebaR分词的使用词云的绘制(wordcloud2详细使用见:Mac版R语言(四)使用wordcloud2画词云点击打开链接)k-means聚类 运行环境Platform:
阅读更多...
Java架构师分布式搜索词库解决方案
目录 1 IK分词器字典热加载实现思路2 分析IK分词器的配置3 基于MySQL更新字典的实现4 常见报错4.1 java.lang.ExceptionInInitializerError: null …access denied (“java.lang.RuntimePermission” “setContextClassLoader”)4.2 java.sql.SQLNonTransie
阅读更多...
Java架构师分布式搜索词库解决方案
目录 1 IK分词器字典热加载实现思路2 分析IK分词器的配置3 基于MySQL更新字典的实现4 常见报错4.1 java.lang.ExceptionInInitializerError: null …access denied (“java.lang.RuntimePermission” “setContextClassLoader”)4.2 java.sql.SQLNonTransie
阅读更多...
批量爬取指定多个网址的爱站权重关键词词库(爱站拓词自动去重)
批量爬取指定多个网址的爱站权重关键词词库软件介绍: 1、软件可以设置权重词的长度范围。 2、可设置权重词必须包含词。 3、可以设置爬取的页数。 4、可以设置爬取PC权重词、移动权重词。 5、可以放入多个网站,批量爬取多个网站的权重词。 6、爬取完成后,软件自动去重。 7、软件自带几万常见违禁词库,爬取关键词包含违禁词就自动删除该关键词。 8、软件爬取爱站网 https://baidu
阅读更多...
中文分词库-jieba
问题1:(8分)用 jieba 分词,计算字符串 s 中的中文词汇个数,不包括中文标点符号。显示输出分词后的结果,用”/ ”分隔,以及中文词汇个数。示例如下: 输入: 工业互联网”实施的方式是通过通信、控制和计算技术的交叉应用,建造一个信息物理系统,促进物理系统和数字系统的融合。 输出: 工业/ 互联网/实施/ 的/ 方式/是/ 通过/ 通信/控制/ 和/ 计算技术/的/ 交叉/ 应用
阅读更多...
[ES]一基础|正排索引和倒排索引 | ES和MySQLd的对比 | 默认分词器 | IK分词器 | 扩展、停用ik分词器的词库
参考 https://www.bilibili.com/video/BV1b8411Z7w5?p=6 一、正排索引和倒排索引 1、ES采用倒排索引 1)文档(document):每条数据就是一个文档,在mysql中一个文档就是一条数据,在网页中,一个文档就是一个网页 2)词条(term):文档按照语义分成的词语(中文的话按照中文的词分、英语按照英文分) 3)存储过程:将文档从第一行开始,
阅读更多...
知乎用户揭秘中文同义词词库:惊喜分享,百度网盘下载地址
作为一位文字工作者,我将以一个知乎用户的身份来撰写关于中文同义词词库的文章。以下是我的写作。 中文同义词词库是一种有吸引力的语言工具,它可以帮助我们更加准确地表达想法和情感。通过丰富的内容和实用的功能,它成为了我们写作中不可或缺的助手。 1.提供多样化的同义词选择 中文同义词词库提供了丰富多样的同义词选择,使我们在表达时更加灵活多变。无论是写作还是日常对话,我们都可以通过选择合适的同义词来增
阅读更多...
知网 - 情感分析用词语集(beta版)- 情感词库
找了很久的资源,免费的东西很多人收费下载,分享一下 http://www.keenage.com/html/c_index.html 也有很多其他的情感词库,知乎推荐 https://www.zhihu.com/question/20631050/answer/23454243 ---------------------------更新:20230619--------------------
阅读更多...