万万没想到,我用文心一言开发了一个儿童小玩具

2023-10-10 13:04

本文主要是介绍万万没想到,我用文心一言开发了一个儿童小玩具,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近关注到一年一度的百度世界大会今年将于10月17日在北京首钢园举办,本期大会的主题是“生成未来(PROMPT THE WORLD)”。会上,李彦宏会做主题为「手把手教你做AI原生应用」的演讲,比较期待 Robin 会怎么展示。据说,大会当天百度还会发布文心4.0版本,估计要炸一波街。

在这里插入图片描述

作为一名对人工智能技术深感兴趣的开发者,我相信这次大会将带来各种新颖的想法和独特的观点,激发参会者们探索AI技术更广阔应用场景的热情。也很期待从李彦宏和其他嘉宾的分享中汲取灵感并拓宽视野,进一步认识到AI技术带给我们的巨大机遇。

想法由来

文心大模型覆盖了很多AI应用场景,有NLP大模型、CV大模型、跨模态大模型等等。今年3月,百度发布了大模型服务平台文心千帆,纳入管理包括文心大模型在内的国内外主流大模型,对于除文心大模型之外的第三方大模型,千帆平台不只是简单的接入,还提供中文增强、性能增强、上下文增强等能力。比如,原来要用英文对话效果才好的 Llama2 等国外大模型,现在用中文也一样好。

看到文心提供的强大功能,感觉不做点什么都觉得对不起它。想到最近工作比较忙,没时间陪伴自己的女儿,她现在正是需要益智小游戏的年龄段,于是就有了开发一款适用于婴幼儿的【看图语音识别】小游戏的创意。

实现流程构想

  • 程序弹出小动物的图片;
  • 孩子发出“小动物名字”的语音;
  • 程序识别语音并告知孩子是否回答正确;
  • 正确则切换下一张图片,错误则告知孩子请重新作答;

小游戏应用实现流程

准备工作:SDK安装及使用流程

(1)安装SDK

pip install qianfan

这里需要注意:目前支持 Python >= 3.7版本。且调用SDK前,需确保已完成SDK安装。

(2)调用SDK(具体操作步骤)

  • 步骤一,在百度千帆大模型平台创建应用,获取应用API Key(AK) 和 Secret Key(SK)。
  • 步骤二,初始化AK 和 SK。
  • 步骤三,调用SDK。

第一步,随机展示动物图片

我们先搜集几张不同的动物图片,然后用动物的名字来命名,将它们放在程序的固定路径下。

from PIL import Image
import os
import random# 指定图片文件夹路径
img_folder = "path/to/image/folder"# 获取图片列表
img_list = os.listdir(img_folder)# 从列表中随机选择一张图片
img_name = random.choice(img_list)# 打开并显示选中的图片
img_path = os.path.join(img_folder, img_name)
img = Image.open(img_path)
img.show()

在这里插入图片描述

第二步,完成图像识别

首先通过应用的API_KEY和SECRET_KEY 获取应用的 access_token。

def get_access_token():# 使用 AK,SK 生成鉴权签名(Access Token)# return: access_token,或是None(如果错误)url = "https://aip.baidubce.com/oauth/2.0/token"params = {"grant_type": "client_credentials", "client_id": API_KEY, "client_secret": SECRET_KEY}return str(requests.post(url, params=params).json().get("access_token"))

然后根据图片获取到对应的base64编码:

def get_file_content_as_base64(path, urlencoded=False):# 获取文件base64编码# :param path: 文件路径# :param urlencoded: 是否对结果进行urlencoded# :return: base64编码信息with open(path, "rb") as f:content = base64.b64encode(f.read()).decode("utf8")if urlencoded:content = urllib.parse.quote_plus(content)return content

最后调用图片识别接口,获取图片识别的动物名称

def get_result():url = "https://aip.baidubce.com/rest/2.0/image-classify/v1/animal?access_token=" + get_access_token()# 获取图片的base64编码payload= get_file_content_as_base64("C://path//to//image//folder//斑马.jpg",True)headers = {'Content-Type': 'application/x-www-form-urlencoded','Accept': 'application/json'}response = requests.request("POST", url, headers=headers, data=payload)print(response.text)

打印结果如下,返回结果对应不同score,我们取score最高的作为返回结果即“斑马”。

{"result": [{"score": "0.948385","name": "斑马"},{"score": "0.0410539","name": "平原斑马"},{"score": "0.00519192","name": "细纹斑马"},{"score": "0.000554136","name": "斑马驴"},{"score": "0.000273289","name": "斑驴"},{"score": "0.000155838","name": "孟加拉虎"}],"log_id": "1710925525288202877"
}

第三步,识别小朋友的语音

在这里插入图片描述
在孩子看到图片之后用语音的方式说出动物的名字,此时我们需要将孩子的语音文件进行 base64 转码处理。

def get_file_content_as_base64(path, urlencoded=False):# 获取文件base64编码# :param path: 文件路径# :param urlencoded: 是否对结果进行urlencoded# :return: base64编码信息with open(path, "rb") as f:content = base64.b64encode(f.read()).decode("utf8")if urlencoded:content = urllib.parse.quote_plus(content)return content

然后需要将该语音文件转化为文本:

def get_text():url = "https://vop.baidu.com/server_api"speech = get_file_content_as_base64("C://path//to//image//folder//banma.m4a",False)payload = json.dumps({"format": "pcm","rate": 16000,"channel": 1,"cuid": "0kGgQCWS6F1A7lYR5sBQCVT3Id4TsEY4","token": get_access_token(),"speech": speech,"len": 36414})headers = {'Content-Type': 'application/json','Accept': 'application/json'}response = requests.request("POST", url, headers=headers, data=payload)print(response.text)

打印结果如下,我们根据返回的结果将 result 中的数据取出来,即“斑马”。

{"corpus_no": "7287496064443398818","err_msg": "success.","err_no": 0,"result": ["斑马"],"sn": "928281938221696752399"
}

最后就需要我们把“通过图像识别出来的文字”和“通过语音识别出来的文字”进行比对,如果一致就切换下一张图片,不一致则告知孩子请重新作答。

到这儿,我的创意就全部实现了,虽然只是简单的软件层面的实现,但是我希望以后儿童玩具厂商可以把它来最终落地,毕竟这种AI原生应用小玩具肯定会广受儿童喜欢的。它到底是“斑马”还是“马”呢?让程序告诉小朋友吧。

最后多啰嗦几句,很期待在百度世界大会上看到更多的AI原生应用,包括智能家居、智能医疗、智能零售、智能交通等领域的创新应用。这些应用将有望在未来实现更好的人机交互、智能化的自动化流程、个性化的服务和体验,推动产业升级和社会进步。同时,我们也期待看到更多企业和开发者加入到AI原生应用的创新行列中,共同推动人工智能技术向前发展。

这篇关于万万没想到,我用文心一言开发了一个儿童小玩具的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/180629

相关文章

基于Qt开发一个简单的OFD阅读器

《基于Qt开发一个简单的OFD阅读器》这篇文章主要为大家详细介绍了如何使用Qt框架开发一个功能强大且性能优异的OFD阅读器,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 目录摘要引言一、OFD文件格式解析二、文档结构解析三、页面渲染四、用户交互五、性能优化六、示例代码七、未来发展方向八、结论摘要

在 VSCode 中配置 C++ 开发环境的详细教程

《在VSCode中配置C++开发环境的详细教程》本文详细介绍了如何在VisualStudioCode(VSCode)中配置C++开发环境,包括安装必要的工具、配置编译器、设置调试环境等步骤,通... 目录如何在 VSCode 中配置 C++ 开发环境:详细教程1. 什么是 VSCode?2. 安装 VSCo

C#图表开发之Chart详解

《C#图表开发之Chart详解》C#中的Chart控件用于开发图表功能,具有Series和ChartArea两个重要属性,Series属性是SeriesCollection类型,包含多个Series对... 目录OverviChina编程ewSeries类总结OverviewC#中,开发图表功能的控件是Char

鸿蒙开发搭建flutter适配的开发环境

《鸿蒙开发搭建flutter适配的开发环境》文章详细介绍了在Windows系统上如何创建和运行鸿蒙Flutter项目,包括使用flutterdoctor检测环境、创建项目、编译HAP包以及在真机上运... 目录环境搭建创建运行项目打包项目总结环境搭建1.安装 DevEco Studio NEXT IDE

Python开发围棋游戏的实例代码(实现全部功能)

《Python开发围棋游戏的实例代码(实现全部功能)》围棋是一种古老而复杂的策略棋类游戏,起源于中国,已有超过2500年的历史,本文介绍了如何用Python开发一个简单的围棋游戏,实例代码涵盖了游戏的... 目录1. 围棋游戏概述1.1 游戏规则1.2 游戏设计思路2. 环境准备3. 创建棋盘3.1 棋盘类

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来