阿里笔试--智能对话简化版之query指令槽位识别

2024-06-21 23:58

本文主要是介绍阿里笔试--智能对话简化版之query指令槽位识别,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

头天贴主参加了阿里的笔试,第一道编程题就够做了。不是时间短,是脑子不够用。好了,不废话了,上干货。

题目介绍

现下互联网AI战争以智能音箱为切入口,敲开市场大门,抢夺市场用户。智能音箱需要语音交互,这就涉及到query指令的语义理解。例如:"我要看章子怡的一代宗师",这里边需要识别出来:动作“看”,“章子怡”,“一代宗师”。一般都会建立一个知识库:名词标注各种标签,这里边可能会有:章子怡是演员,一代宗师是电影。另外有的名词可能会有包含关系,例如,“周杰”,“周杰伦”,这个采用从左到右最长字符串优选匹配原则。

输入格式:

       第一行是简化版知识库:<标签1>_<名词1>|<名词2>|<名词3>;<标签2>_<名词2>|<名词4>|<名词5>;.....

       第二行是query指令。

输出格式:

       **** <名词1>/<标签1> **** <名词2>/<标签1>,<标签2> ****

范例:      

  输入:

      singer_周杰|周杰伦|刘德华|王力宏;song_冰雨|北京欢迎你|七里香;actor_周杰伦|孙俪

      请播放周杰伦的七里香给周杰伦周杰孙俪听周杰王力宏

  输出:

      请播放 周杰伦/singer,actor 的 七里香/song 给 周杰伦/singer,actor 周杰/singer 孙俪/actor 听 周杰/singer 王力宏/singer

思路

由于有从左到右优先的匹配的选择,所以考虑把输入的知识库转换成名词映射多个标签:{"<名词2>": ["<标签1>", "<标签2>"], ....},并且按key=<名词k>倒序;之后按排序后的key依次遍历匹配query,匹配成功,则替换query中名词为带编号的特殊标识(为了不让后边短的子字符串覆盖长的父字符串),并且记录这个名词,遍历完之后,得到一个有序的名词列表,最后遍历有序的名词列表,替换query中的特殊标识得到最终的输出结果。

代码

#!/usr/bin/env python
# -*-encoding=utf8-*-import redef match_process():row1 = raw_input()datas = {}entity_str_list = row1.split(";")for entity_str in entity_str_list:entity_name, entity_values = entity_str.split("_")entity_value_list = entity_values.split("|")for entity_value in entity_value_list:if datas.has_key(entity_value):datas[entity_value].append(entity_name)else:datas[entity_value] = [entity_name]entity_list = sorted(datas.keys(), reverse=True)row2 = raw_input()words = row2result = []tmp_words = wordstemp_entity = ""count = 1for entity_value in entity_list:if entity_value in tmp_words:if temp_entity == "":temp_entity = entity_valueelse:resulta.append(temp_entity)tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))count += 1temp_entity = entity_valueelse:if temp_entity != "":resulta.append(temp_entity)tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))count += 1temp_entity = ""if temp_entity != "":resulta.append(temp_entity)tmp_words = tmp_words.replace(temp_entity, "|&{}&|".format(count))final_list = sorted(result, reverse=True)for index in xrange(len(final_list)):st = ",".join(datas[final_list[index]])new_str = " " + final_list[index] + "/" + st + " "tmp_words = tmp_words.replace("|&{}&|".format(index + 1), new_str)print " ".join(tmp_words.split())if __name__ == '__main__':match_process()#singer_周杰|周杰伦|刘德华|王力宏;song_冰雨|北京欢迎你|七里香;actor_周杰伦|孙俪
# 请播放周杰伦的七里香给周杰伦周杰孙俪听周杰王力宏

运行截图:

这篇关于阿里笔试--智能对话简化版之query指令槽位识别的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1082703

相关文章

嵌入式软件常见的笔试题(c)

找工作的事情告一段落,现在把一些公司常见的笔试题型整理一下,本人主要是找嵌入式软件方面的工作,笔试的也主要是C语言、数据结构,大体上都比较基础,但是得早作准备,才会占得先机。   1:整型数求反 2:字符串求反,字符串加密,越界问题 3:字符串逆序,两端对调;字符串逆序,指针法 4:递归求n! 5:不用库函数,比较两个字符串的大小 6:求0-3000中含有9和2的全部数之和 7

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

【新闻】AI程序员要来了吗?阿里云官宣

内容提要 6 月 21 日,在阿里云上海 AI 峰会上,阿里云宣布推出首个AI 程序员。 据介绍,这个AI程序员具备架构师、开发工程师、测试工程师等多种岗位的技能,能一站式自主完成任务分解、代码编写、测试、问题修复、代码提交整个过程,最快分钟级即可完成应用开发,大幅提升研发效率。 近段时间以来,有关AI的实践应用突破不断,全球开发者加速研发步伐。有业内人士坦言,随着大模型性能逐渐提升,AI应

基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别

转发来源:https://swift.ctolib.com/ooooverflow-chinese-ocr.html chinese-ocr 基于CTPN(tensorflow)+CRNN(pytorch)+CTC的不定长文本检测和识别 环境部署 sh setup.sh 使用环境: python 3.6 + tensorflow 1.10 +pytorch 0.4.1 注:CPU环境

百度OCR识别结构结构化处理视频

https://edu.csdn.net/course/detail/10506

基于 Java 实现的智能客服聊天工具模拟场景

服务端代码 import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.PrintWriter;import java.net.ServerSocket;import java.net.Socket;public class Serv

Pycharm配置conda环境(解决新版本无法识别可执行文件问题)

引言: 很多小伙伴在下载最新版本的pycharm或者更新到最新版本后为项目配置conda环境的时候,发现文件夹目录中无法显示可执行文件(一般为python.exe),以下就是本人遇到该问题后试验和解决该问题的一些方法和思路。 一般遇到该问题的人群有两种,一种是刚入门对pycharm进行conda环境配置的小白(例如我),不熟悉相关环境配置的操作和过程,还有一种是入坑pycharm有段时间的老手

神经网络第四篇:推理处理之手写数字识别

到目前为止,我们已经介绍完了神经网络的基本结构,现在用一个图像识别示例对前面的知识作整体的总结。本专题知识点如下: MNIST数据集图像数据转图像神经网络的推理处理批处理  MNIST数据集          mnist数据图像 MNIST数据集由0到9的数字图像构成。像素取值在0到255之间。每个图像数据都相应地标有“7”、“2”、“1”等数字标签。MNIST数据集中,

江西电信联合实在智能举办RPA数字员工培训班,培养“人工智能+”电信人才

近日,江西电信与实在智能合作的2024年数字员工开发应用培训班圆满闭幕。包括省公司及11个分公司的核心业务部门,超过40名学员积极报名参与此次培训,江西电信企业信息化部门总监徐建军出席活动并致辞,风控支撑室主任黄剑主持此次培训活动。 在培训会开幕仪式上,徐建军强调,科创是电信企业发展的核心动力,学习RPA技术是实现数字化转型的关键,他阐述了RPA在提高效率、降低成本和优化资源方面的价值,并鼓励学

vscode python pip : 无法将“pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称

在vscode中控制台运行python文件出现:无法将"pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 使用vscode开发python,需要安装python开发扩展: 本文已经安装,我们需要找的是python安装所在目录,本文实际路径如下: 如果在本文路径中没有此目录,请尝试在C盘中搜索 python,搜索到相关python目录后,点击Python 3.9进入目录,