用手势识别来测试视力?试试用百度AI来实现想法

2023-10-20 11:40

本文主要是介绍用手势识别来测试视力?试试用百度AI来实现想法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • ⭐ 前言
  • ⭐ 灵感来源
  • ⭐ 项目准备
  • ⭐ 项目实现
  • ⭐ 不足与展望

⭐ 前言

10月17日,以“生成未来(PROMPT THE WORLD)”为主题的百度世界2023将在北京首钢园举办。百度创始人、董事长兼首席执行官李彦宏将带来以“手把手教你做AI原生应用”为题的一小时演讲。关于大模型、AI原生应用的最新进展也将悉数亮相。

在这里插入图片描述

这是百度世界四年来首次回归线下举办,除多场主题论坛外,还带来近50项AI科技展,包括Prompt胶囊墙、AI全息数字人等,为参会者带来沉浸式AI体验。

⭐ 灵感来源

百度智能云千帆大模型平台是一站式企业级大模型平台,提供先进的生成式AI生产及应用全流程开发工具链。具有丰富的产品功能、多样的交付方案与服务、全面领先的平台功能、内置丰富优质的大模型能力、预置典型的应用范式。例如训练与推理性能方面,MLPerf榜单训练性能世界领先,千亿模型分布式并行训练加速能力和算力利用率大幅提升。

在这里插入图片描述

10月1放假期间使用手机的频率有点高,导致视力下降,打算去眼镜店重新配个眼镜。可能是学生放假的缘故,眼镜店的人还真不少,就连测视力都排起了长龙。想到百度AI提供的人体分析技术,做一款【智能视力表】应用的想法油然而生。
准备的图片如下:

在这里插入图片描述

3(Three)代表左,4(Four)代表右,上(Thumb_up)就是上,下(Thumb_down)就是下。以下就以动作代表的含义来描述。括号中的英文就是最终应用根据手势识别出的文字信息。
创意步骤:

  • 将视力表中的“E”从上到下分好组,提前录入应用;
  • 打开智能视力表,将手机固定到眼睛50cm的正前方,“上”代表左眼视力开始,“下”代表右眼视力开始;
  • 开始之后应用会按“E”从小到大的顺序来弹出,人做出上下左右的手势,应用识别之后给出是否正确的答案;
  • 如果正确就会给出同组的另一个“E”,连着两个回答正确才会通过,然后提示换另一只眼睛;如果连续的三次中有两个回答错误,就会弹出大一点的“E”,直到通过。
  • 两只眼睛测试完毕之后给出最终的结果。

⭐ 项目准备

废话不多说,搭建来一波。我用的是Python环境,学过Python的同学应该都会搭建环境了,没学过的同学可以自行百度安装(此处不是本文重点)。

(1)安装千帆SDK

pip install qianfan
注意:目前支持 Python >= 3.7版本。

(2)调用千帆SDK
步骤一,创建应用,获取应用API Key(AK) 和 Secret Key(SK)。
步骤二,初始化AK 和 SK。
步骤三,调用SDK。

(3)视力表图片准备

如图,准备了几张示例照片,大家可以找专业的美工来定制不同的图片。

在这里插入图片描述

⭐ 项目实现

图片处理
模拟图片分组,将图片按照不同的视力数值分组

image_map = OrderedDict()
image_map[4.1] = ['4.1上.jpg', '4.1左.jpg']
image_map[5.1] = ['5.1上.jpg', '5.1下.jpg', '5.1左.jpg', '5.1右.jpg']

然后从最后一个索引开始随机弹出照片“5.1上.jpg”

在这里插入图片描述

代码如下:

def get_picture(image_map):index = len(image_map.items())key = list(image_map.keys())[index-1]value = list(image_map.values())[index-1]image = random.choice(value)return key,image

创建应用
打开人体分析页面,创建“智能视力表”应用,获取应用API Key(AK) 和 Secret Key(SK)。

在这里插入图片描述

获取签名
通过应用的API_KEY和SECRET_KEY 获取应用的 access_token

def get_access_token():url = "https://aip.baidubce.com/oauth/2.0/token"params = {"grant_type": "client_credentials", "client_id": API_KEY, "client_secret": SECRET_KEY}return str(requests.post(url, params=params).json().get("access_token"))

手势识别
我们看到应用随机出现的“E”之后,用手势来表示看到的“E”开口方向

在这里插入图片描述

应用首先要获取到图片对应的base64编码

def get_file_content_as_base64(path, urlencoded=False):with open(path, "rb") as f:content = base64.b64encode(f.read()).decode("utf8")if urlencoded:content = urllib.parse.quote_plus(content)return content

根据获取的 access_token ,调用手势识别接口获取手势的意义。

def gesture():url = "https://aip.baidubce.com/rest/2.0/image-classify/v1/gesture?access_token=" + get_access_token()payload = get_file_content_as_base64("下.jpg",True)headers = {'Content-Type': 'application/x-www-form-urlencoded','Accept': 'application/json'}response = requests.request("POST", url, headers=headers, data=payload)print(response.text)

得到的调试结果如下:

{"result": [{"classname": "Thumb_up","top": 175,"left": 158,"probability": "0.5745857357978821","width": 397,"height": 536}],"result_num": 1,"log_id": "1711926132646834128"
}

将result中的classname取出与最早定义好的“上(Thumb_up)”对比来判断对错就可以了。

⭐ 不足与展望

我上边只是将创意进行了简单的实现,里边还有些许不完美的地方,比如视力表图片的制作,视力表图片的录入,判断连续几次成功或者失败的逻辑等都是可以继续优化的地方。希望在不久的将来我可以用上相关厂家提供的【智能视力表】。作为参会者,我非常期待在百度世界大会上看到最新的人工智能技术,希望AI科技展的AI全息数字人能带给我不一样的震撼与体验。同时也非常期待百度世界大会后将会有更多的AI原生应用涌现。最后,祝百度世界大会圆满成功。

这篇关于用手势识别来测试视力?试试用百度AI来实现想法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/246882

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推