聆思CSK6大模型开发板视觉识别类开源SDK介绍

2024-06-12 22:28

本文主要是介绍聆思CSK6大模型开发板视觉识别类开源SDK介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大模型开发板除了语音交互之外,还配套有大模型拍照识图坐姿检测、人脸识别、活体识别、头肩跟随、手势识别、物体分类个线视觉识别方面的交互示例等。

联网使用

大模型图片分析+拍照

离线识别

坐姿检测、人脸识别、活体识别、头肩跟随、手势识别、物体分类

SDK介绍

1、大模型语音交互+拍照识图SDK

SDK功能

  • 语音交互:支持按键录音或唤醒后通过语音与大模型进行对话
  • 拍照识图:支持通过摄像头拍摄图像并上传给大模型进行识别,支持依据识图内容进行提问
  • 图片生成:支持通过语音交互描述画面内容,令大模型生成图片并显示至套件屏幕上

拍照识图

在待机页,点击拍照按钮即可进入取景页面,对准要拍照的物体,点击右侧中间的拍照键完成抓拍,确认画面抓拍正常后(无晃动模糊的情况),点击右侧的 √ 进行提交识别:

识别结果:

2、坐姿检测SDK

算法简介

CSK6 大模型开发套件可检测图像中人物的坐姿情况,并对各种不良的坐姿进行识别,当画面中有坐姿信息时,显示屏上将实时对人物的关键骨骼点进行标注并显示该人物的包含手、身体状态在内的坐姿检测结果,结果包含一下内容:

  • 手状态:正常/下垂/撑脸
  • 身体状态:正常/趴桌/倾斜/驼背/离席

CSK6 芯片支持运行 坐姿检测 AI算法,具备以下特性:

  • 硬件上仅需配合 30W 像素镜头模组,性价比出色
  • 纯离线运行算法,无需联网,保障隐私
  • 检测准确率 > 97%,响应时间 < 18ms
  • 识别距离:推荐 40cm ~ 60cm, 建议不超过 110cm

坐姿检测实物演示

坐姿.mp4

应用运行时,将实时对摄像头前方的人的坐姿进行检测,可通过显示屏观察到摄像头的实时画面及其在画面左侧展示的坐姿检测结果。

3、人脸识别SDK

人脸识别算法简介

人脸识别 算法具备以下特性:

  • 支持检测图像中人脸信息,选取画面中分值最高的人脸,返回人脸边界框、人脸标定点、头部姿态角度、人脸识别特征等
  • 人脸标定点如图,支持68个关键点检测

  • 头部姿态角度如图,支持pitch、roll、yaw三个角度
  • 支持特征比较:将检测到的人脸特征值和本地存储的人脸特征值输入算法进行比对, 并返回比对结果

应用场景

离线人脸识别适用于网络条件不稳定、无网、数据安全性要求高、人脸库较小(20人以下)单台设备的人脸识别场景。常见于人脸门禁、小型企业考勤机、自助终端设备等。

算法效果指标数据

识别效果

在1m距离内,测试特征底库10个,人脸识别效果分别为:

识别能力

识别率

虚警率

人脸识别

95%

0.1%

人脸标定

平均误差(NME)约为0.04

头部姿态

模型预测平均偏差约为±3°

全流程耗时

100ms以内

使用介绍

人脸识别示例工程的使用

调用人脸识别算法,可以通过开发板上的按键操作进行人脸注册、脸识别,并通过图像预览工具查看摄像头的画面与输出结果。

固件功能说明

程序运行后,默认会在屏幕上显示实时的摄像头画面并在画面中使用方框实时标注出人脸,并通过方框的颜色指示不同的识别状态。

可以按照以下流程进行人脸识别功能的使用

  • Step1:检测到人脸 (屏幕显示黄色框 / 开发板LED亮黄色)
  • Step2:按K1按键注册当前人脸特征 (屏幕 registered参数增加1 /开发板LED闪烁蓝色)
  • Step3:按K2对当前人脸进行识别比对
    • 识别通过:屏幕显示绿色框 / 开发板LED亮绿色
    • 识别未通过:屏幕显示红色框 / 开发板LED亮红色
LED指示状态
  • 黄色:检测到人脸
  • 绿色:人脸特征比对通过
  • 红色:人脸特征比对未通过
按键功能
  • K1:录入当前检测到的人脸特征
  • K2:将当然的人脸特征与之前录入的特征进行比较
  • K3:开关摄像头红外补光灯(安装红外摄像头时)

4、活体识别

功能说明

需要搭配带补光灯的红外摄像头,结合人脸识别算法,实现对活体的检测。

程序运行后,默认会在屏幕上显示实时的摄像头画面并在画面中使用方框实时标注出人脸,并通过方框的颜色指示不同的识别状态。

1.注册人脸

当LED为黄色时(检测到人脸),按动K1按键,此时将会录入当前检测到的人脸特征,录入成功后,可看到屏幕上显示的registered 数量增加1,说明本次录入已完成并加入人脸特征库:

2.比对人脸

当LED为黄色时(检测到人脸),按动K2按键,此时固件会将当前摄像头前检测到的人脸与已录入的人脸特征进行比对,若对比成功(命中已录入的人脸特征),屏幕中圈中人脸的框将变为绿色,同时开发板上的LED颜色将变为绿色,表示人脸特征比对通过,并在屏幕上显示匹配的人脸特征序号(id)评分(score)

若比对不通过,即当前人脸未在人脸特征库中录入过,屏幕中圈中人脸的框将变为红色,同时开发板上的LED颜色将变为红色,表示人脸特征比对通过。

3.串口日志的查看

本示例同样支持串口日志的打印,可通过连接开发板上的DAP_USB 并使用串口工具打开对应的串口设备进行日志查看,默认波特率 115200,伴随着 人脸录入人脸比对等操作,可看到日志串口有对应的结果输出。

5、头肩跟随+手势识别SDK

头肩跟随

头肩算法介绍

检测图像中所有人体的头肩位置,返回每个头肩的唯一id、位置坐标、检测得分等;

  • 通过摄像头实时获取图像并在屏幕上进行预览显示
  • 在屏幕展示的画面中标注头肩检测和手势识别的结果与评分

头肩跟随算法效果演示

手势识别

通过头肩检测识别用户的手势,返回当前目标的手势、得分等;

支持5种手势,分别为LIKE(👍)、OK(👌)、STOP(🤚)、YES(✌️)、SIX(🤙);

应用场景
跟拍云台

在直播、视频通话场景,通过云台实现人体追踪,让手机一直正面朝向用户进行录像。并且可以通过手势开启、停止追踪。

算法参数
识别效果

为了让用户在常用的交互距离取得比较好的识别效果,我们建议头肩跟踪跟手势识别最短交互距离为0.5m,最佳交互距分别为3.5m/3m,所对应的识别效果如下:

识别能力

最佳交互距离

识别率

虚警率

头肩跟踪

3.5m

95%

5%

手势识别

3m

91%

5%

帧率

以下是分别在单人和多人场景下的帧率:

场景

识别能力

帧率

单人

头肩追踪、手势识别

15FPS

多人

头肩追踪、手势识别

10FPS

6、物体分类

算法简介

CSK6 大模型开发套件可通过摄像头抓拍画面并对该画面进行物体分类识别,支持包括苹果、床、键盘等100+种物体的识别。通过触摸屏可进行取景与抓拍控制,完成拍照后将自动识别并在屏幕上显示识别结果。

本示例演示在开发套件上运行基于pytorch-cifar100训练的resnet18物体分类模型,支持通过摄像头拍照并完成对指定物品的分类识别。

本模型支持以下物体的分类识别:

"apple",       "aquarium_fish", "baby",      "bear",       "beaver",       "bed",
"bee",         "beetle",        "bicycle",   "bottle",     "bowl",         "boy",
"bridge",      "bus",           "butterfly", "camel",      "can",          "castle",
"caterpillar", "cattle",        "chair",     "chimpanzee", "clock",        "cloud",
"cockroach",   "couch",         "crab",      "crocodile",  "cup",          "dinosaur",
"dolphin",     "elephant",      "flatfish",  "forest",     "fox",          "girl",
"hamster",     "house",         "kangaroo",  "keyboard",   "lamp",         "lawn_mower",
"leopard",     "lion",          "lizard",    "lobster",    "man",          "maple_tree",
"motorcycle",  "mountain",      "mouse",     "mushroom",   "oak_tree",     "orange",
"orchid",      "otter",         "palm_tree", "pear",       "pickup_truck", "pine_tree",
"plain",       "plate",         "poppy",     "porcupine",  "possum",       "rabbit",
"raccoon",     "ray",           "road",      "rocket",     "rose",         "sea",
"seal",        "shark",         "shrew",     "skunk",      "skyscraper",   "snail",
"snake",       "spider",        "squirrel",  "streetcar",  "sunflower",    "sweet_pepper",
"table",       "tank",          "telephone", "television", "tiger",        "tractor",
"train",       "trout",         "tulip",     "turtle",     "wardrobe",     "whale",
"willow_tree", "wolf",          "woman",     "worm"

本示例基于开源项目进行移植适配,仅用于 CV 能力的验证与评估,不代表适用于商用项目。

功能展示

  • 点击屏幕 翻转 按钮,可实现对摄像头的影像预览翻转,可根据摄像头是否安装在开发板背面进行切换
  • 点击屏幕 TAKE 按钮,可对当面画面进行拍照并识别

SDK资源下载

大模型拍照识图 :https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/feature/awe_open/apps/LLM_pic

其他功能SDK下载地址:https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/

  • 坐姿检测: apps目录下,工程目录名称为 lcd_spd
  • 人脸识别: apps目录下,工程目录名称为 fd
  • 活体识别: apps目录下,工程目录名称为 fdh
  • 头肩跟随+手势识别: apps目录下,工程目录名称为 hsd
  • 物体分类: apps目录下,工程目录名称为 resnet18

已打包好的DEMO固件下载:

  • 大模型拍照识图固件:https://docs2.listenai.com/x/UzjbjIAxw
  • 坐姿检测: https://docs2.listenai.com/x/D3CV6m1w6
  • 人脸识别: https://docs2.listenai.com/x/C176n3JaJ
  • 活体识别: https://docs2.listenai.com/x/Pr51i42rn
  • 头肩跟随+手势识别:https://docs2.listenai.com/x/UGGyPHCTL
  • 物体分类: https://docs2.listenai.com/x/urrNYp4Ie

补充开发板信息

开发板具备丰富语音图像功能与硬件外设的开发板,采用有着丰富组件生态的 Zephyr RTOS 作为操作系统,默认配套开箱即玩的 AI 应用,也可以配合聆思的模型训练推理工具 LNN 将自己的算法模型部署至芯片上,构建自己的 AI 应用,开发板详情参考:https://docs2.listenai.com/x/nTn9kMMCU

这篇关于聆思CSK6大模型开发板视觉识别类开源SDK介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055506

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费