相识词设计思路及实现方法

本文主要是介绍相识词设计思路及实现方法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.业务背景

2.实现方法

第一种：

编辑

第二种：

3.相关材料

1.业务背景

业务有全文检索功能，然后根据标书的要求需要有近似词的功能，一般近似词需要模型训练之后成为词库，是需要大数据相关人员负责。负责人表示简单实现一个不需要那么复杂，如输入张三显示于张三有关的信息表示。作为开发的当然不允许这么草率实现一个功能，相识近似至少要能识别中文语义才行。

2.实现方法

第一种：

在网上找到一个 shibing624 similarity 的jar 包，里面包含了词语短句中文以及字符串的格式相识，通过比较都得一个相识分。然后在网上找到一个简单的词库，通过流的形式读取出来然后挨个比较。得出分数高的返回即可，嘿嘿嘿，想法不错。

这是词库的格式得按照一定格式解析，考虑近似词使用可能比较频繁，每次本地IO也挺消耗资源，所以给他干以放在内存，因为词库数据可能存在重复的情况，使用set集合

private static Set<String> lexiconResourcePaths = new HashSet<>();private static Set<String> lexiconData = new HashSet<>();/*** 词典预热*/@PostConstructpublic void lexiconPreheat() {loadResource();analysisLexicon();}/*** 加载资源*/private void loadResource() {lexiconResourcePaths.add(getClass().getClassLoader().getResource("lexicon/jinyici.txt").getFile());}/*** 解析本地词典** @return*/private void analysisLexicon() {StringBuilder result = new StringBuilder();lexiconResourcePaths.forEach(filePath -> {File file = new File(filePath);try {// 构造一个BufferedReader类来读取文件BufferedReader br = new BufferedReader(new FileReader(file));String s = null;// 使用readLine方法，一次读一行while ((s = br.readLine()) != null) {result.append(System.lineSeparator() + s);}br.close();} catch (Exception e) {e.printStackTrace();}});String str = result.toString().replace("\r\n", " ");lexiconData = Arrays.stream(str.split(" ")).collect(Collectors.toSet());}

然后就是将要获取同义词的和词库一一比计较，且必须得按照分数分值高的排序。

添加的时候会遇到几种情况，所以是添加的时候去比较，且可以根据前端传递的长度返回前几位，有几种情况

@Overridepublic List<SearchSimilarityVo>  execute(SimilarSearchParam param) {List<SearchSimilarityVo> resultVo = new LinkedList<>();lexiconData.forEach(word -> {double score = Similarity.conceptSimilarity(param.getSearchContent(), word);if (score < 0.7 || StringUtils.isEmpty(word)){return;}SearchSimilarityVo currentData = new SearchSimilarityVo(word, score);if (resultVo.size() >= 1) {int lastIndex = resultVo.size() - 1;SearchSimilarityVo lastData = resultVo.get(lastIndex);Double acquaintanceshipScore = lastData.getScore();// 大于if (score > acquaintanceshipScore) {while (true) {if (lastIndex == 0) {// 最小break;}lastIndex--;lastData = resultVo.get(lastIndex);if (score > lastData.getScore()) {continue;} else {lastIndex++;break;}}// 1.大于长度 删除末尾if (resultVo.size() >= param.getSize()) {resultVo.remove(resultVo.size() - 1);}resultVo.add(lastIndex, currentData);} else if (resultVo.size() < param.getSize()) {// 2.小于且不超过总长度resultVo.add(currentData);}} else {// 3.第一个resultVo.add(currentData);}});System.out.println("resultVo{}:" + resultVo);return resultVo;}

功能是实现了，但其实每次去比较这么多其实还是挺耗时间，词库就 30000次每次都去比较，性能就不用说了，肯定慢，而且一旦遇到分数高的还得将数据进行排序，所以我这使用的是 linklist 会强一点，且在添加的时候已经将顺序排号，过滤了低分。

但是这种词库不出意外的肯定出意外了，客户说这同义词没啥用。嘿嘿嘿给我说，词库这方面我们还没想法，要不这样你就知识库（也就是用户名邮箱电话相关的三个库），要求比如输入英文名能显示中文名，就这样一个实例，没错，剩下的又是我自己发挥的时候，开发真难，抱着客户都是祖宗的原则，我只能，害，这不简简单单的事情嘛。