阿里笔试--智能对话简化版之query指令槽位识别

2024-06-21 23:58

本文主要是介绍阿里笔试--智能对话简化版之query指令槽位识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

头天贴主参加了阿里的笔试,第一道编程题就够做了。不是时间短,是脑子不够用。好了,不废话了,上干货。

题目介绍

现下互联网AI战争以智能音箱为切入口,敲开市场大门,抢夺市场用户。智能音箱需要语音交互,这就涉及到query指令的语义理解。例如:"我要看章子怡的一代宗师",这里边需要识别出来:动作“看”,“章子怡”,“一代宗师”。一般都会建立一个知识库:名词标注各种标签,这里边可能会有:章子怡是演员,一代宗师是电影。另外有的名词可能会有包含关系,例如,“周杰”,“周杰伦”,这个采用从左到右最长字符串优选匹配原则。

输入格式:

       第一行是简化版知识库:<标签1>_<名词1>|<名词2>|<名词3>;<标签2>_<名词2>|<名词4>|<名词5>;.....

       第二行是query指令。

输出格式:

       **** <名词1>/<标签1> **** <名词2>/<标签1>,<标签2> ****

范例:      

  输入:

      singer_周杰|周杰伦|刘德华|王力宏;song_冰雨|北京欢迎你|七里香;actor_周杰伦|孙俪

      请播放周杰伦的七里香给周杰伦周杰孙俪听周杰王力宏

  输出:

      请播放 周杰伦/singer,actor 的 七里香/song 给 周杰伦/singer,actor 周杰/singer 孙俪/actor 听 周杰/singer 王力宏/singer

思路

由于有从左到右优先的匹配的选择,所以考虑把输入的知识库转换成名词映射多个标签:{"<名词2>": ["<标签1>", "<标签2>"], ....},并且按key=<名词k>倒序;之后按排序后的key依次遍历匹配query,匹配成功,则替换query中名词为带编号的特殊标识(为了不让后边短的子字符串覆盖长的父字符串),并且记录这个名词,遍历完之后,得到一个有序的名词列表,最后遍历有序的名词列表,替换query中的特殊标识得到最终的输出结果。

代码

#!/usr/bin/env python
# -*-encoding=utf8-*-import redef match_process():row1 = raw_input()datas = {}entity_str_list = row1.split(";")for entity_str in entity_str_list:entity_name, entity_values = entity_str.split("_")entity_value_list = entity_values.split("|")for entity_value in entity_value_list:if datas.has_key(entity_value):datas[entity_value].append(entity_name)else:datas[entity_value] = [entity_name]entity_list = sorted(datas.keys(), reverse=True)row2 = raw_input()words = row2result = []tmp_words = wordstemp_entity = ""count = 1for entity_value in entity_list:if entity_value in tmp_words:if temp_entity == "":temp_entity = entity_valueelse:resulta.append(temp_entity)tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))count += 1temp_entity = entity_valueelse:if temp_entity != "":resulta.append(temp_entity)tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))count += 1temp_entity = ""if temp_entity != "":resulta.append(temp_entity)tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))final_list = sorted(result, reverse=True)for index in xrange(len(final_list)):st = ",".join(datas[final_list[index]])new_str = " " + final_list[index] + "/" + st + " "tmp_words = tmp_words.replace("|&{}&|".format(index + 1), new_str)print " ".join(tmp_words.split())if __name__ == '__main__':match_process()#singer_周杰|周杰伦|刘德华|王力宏;song_冰雨|北京欢迎你|七里香;actor_周杰伦|孙俪
# 请播放周杰伦的七里香给周杰伦周杰孙俪听周杰王力宏

运行截图:

这篇关于阿里笔试--智能对话简化版之query指令槽位识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1082703

相关文章

Nginx指令add_header和proxy_set_header的区别及说明

《Nginx指令add_header和proxy_set_header的区别及说明》:本文主要介绍Nginx指令add_header和proxy_set_header的区别及说明,具有很好的参考价... 目录Nginx指令add_header和proxy_set_header区别如何理解反向代理?proxy

使用PyTorch实现手写数字识别功能

《使用PyTorch实现手写数字识别功能》在人工智能的世界里,计算机视觉是最具魅力的领域之一,通过PyTorch这一强大的深度学习框架,我们将在经典的MNIST数据集上,见证一个神经网络从零开始学会识... 目录当计算机学会“看”数字搭建开发环境MNIST数据集解析1. 认识手写数字数据库2. 数据预处理的

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

讯飞webapi语音识别接口调用示例代码(python)

《讯飞webapi语音识别接口调用示例代码(python)》:本文主要介绍如何使用Python3调用讯飞WebAPI语音识别接口,重点解决了在处理语音识别结果时判断是否为最后一帧的问题,通过运行代... 目录前言一、环境二、引入库三、代码实例四、运行结果五、总结前言基于python3 讯飞webAPI语音

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

使用Python实现表格字段智能去重

《使用Python实现表格字段智能去重》在数据分析和处理过程中,数据清洗是一个至关重要的步骤,其中字段去重是一个常见且关键的任务,下面我们看看如何使用Python进行表格字段智能去重吧... 目录一、引言二、数据重复问题的常见场景与影响三、python在数据清洗中的优势四、基于Python的表格字段智能去重

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

Python3脚本实现Excel与TXT的智能转换

《Python3脚本实现Excel与TXT的智能转换》在数据处理的日常工作中,我们经常需要将Excel中的结构化数据转换为其他格式,本文将使用Python3实现Excel与TXT的智能转换,需要的可以... 目录场景应用:为什么需要这种转换技术解析:代码实现详解核心代码展示改进点说明实战演练:从Excel到

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图