聆思CSK6大模型开发板视觉识别类开源SDK介绍

2024-06-12 22:28

本文主要是介绍聆思CSK6大模型开发板视觉识别类开源SDK介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大模型开发板除了语音交互之外,还配套有大模型拍照识图坐姿检测、人脸识别、活体识别、头肩跟随、手势识别、物体分类个线视觉识别方面的交互示例等。

联网使用

大模型图片分析+拍照

离线识别

坐姿检测、人脸识别、活体识别、头肩跟随、手势识别、物体分类

SDK介绍

1、大模型语音交互+拍照识图SDK

SDK功能

  • 语音交互:支持按键录音或唤醒后通过语音与大模型进行对话
  • 拍照识图:支持通过摄像头拍摄图像并上传给大模型进行识别,支持依据识图内容进行提问
  • 图片生成:支持通过语音交互描述画面内容,令大模型生成图片并显示至套件屏幕上

拍照识图

在待机页,点击拍照按钮即可进入取景页面,对准要拍照的物体,点击右侧中间的拍照键完成抓拍,确认画面抓拍正常后(无晃动模糊的情况),点击右侧的 √ 进行提交识别:

识别结果:

2、坐姿检测SDK

算法简介

CSK6 大模型开发套件可检测图像中人物的坐姿情况,并对各种不良的坐姿进行识别,当画面中有坐姿信息时,显示屏上将实时对人物的关键骨骼点进行标注并显示该人物的包含手、身体状态在内的坐姿检测结果,结果包含一下内容:

  • 手状态:正常/下垂/撑脸
  • 身体状态:正常/趴桌/倾斜/驼背/离席

CSK6 芯片支持运行 坐姿检测 AI算法,具备以下特性:

  • 硬件上仅需配合 30W 像素镜头模组,性价比出色
  • 纯离线运行算法,无需联网,保障隐私
  • 检测准确率 > 97%,响应时间 < 18ms
  • 识别距离:推荐 40cm ~ 60cm, 建议不超过 110cm

坐姿检测实物演示

坐姿.mp4

应用运行时,将实时对摄像头前方的人的坐姿进行检测,可通过显示屏观察到摄像头的实时画面及其在画面左侧展示的坐姿检测结果。

3、人脸识别SDK

人脸识别算法简介

人脸识别 算法具备以下特性:

  • 支持检测图像中人脸信息,选取画面中分值最高的人脸,返回人脸边界框、人脸标定点、头部姿态角度、人脸识别特征等
  • 人脸标定点如图,支持68个关键点检测

  • 头部姿态角度如图,支持pitch、roll、yaw三个角度
  • 支持特征比较:将检测到的人脸特征值和本地存储的人脸特征值输入算法进行比对, 并返回比对结果

应用场景

离线人脸识别适用于网络条件不稳定、无网、数据安全性要求高、人脸库较小(20人以下)单台设备的人脸识别场景。常见于人脸门禁、小型企业考勤机、自助终端设备等。

算法效果指标数据

识别效果

在1m距离内,测试特征底库10个,人脸识别效果分别为:

识别能力

识别率

虚警率

人脸识别

95%

0.1%

人脸标定

平均误差(NME)约为0.04

头部姿态

模型预测平均偏差约为±3°

全流程耗时

100ms以内

使用介绍

人脸识别示例工程的使用

调用人脸识别算法,可以通过开发板上的按键操作进行人脸注册、脸识别,并通过图像预览工具查看摄像头的画面与输出结果。

固件功能说明

程序运行后,默认会在屏幕上显示实时的摄像头画面并在画面中使用方框实时标注出人脸,并通过方框的颜色指示不同的识别状态。

可以按照以下流程进行人脸识别功能的使用

  • Step1:检测到人脸 (屏幕显示黄色框 / 开发板LED亮黄色)
  • Step2:按K1按键注册当前人脸特征 (屏幕 registered参数增加1 /开发板LED闪烁蓝色)
  • Step3:按K2对当前人脸进行识别比对
    • 识别通过:屏幕显示绿色框 / 开发板LED亮绿色
    • 识别未通过:屏幕显示红色框 / 开发板LED亮红色
LED指示状态
  • 黄色:检测到人脸
  • 绿色:人脸特征比对通过
  • 红色:人脸特征比对未通过
按键功能
  • K1:录入当前检测到的人脸特征
  • K2:将当然的人脸特征与之前录入的特征进行比较
  • K3:开关摄像头红外补光灯(安装红外摄像头时)

4、活体识别

功能说明

需要搭配带补光灯的红外摄像头,结合人脸识别算法,实现对活体的检测。

程序运行后,默认会在屏幕上显示实时的摄像头画面并在画面中使用方框实时标注出人脸,并通过方框的颜色指示不同的识别状态。

1.注册人脸

当LED为黄色时(检测到人脸),按动K1按键,此时将会录入当前检测到的人脸特征,录入成功后,可看到屏幕上显示的registered 数量增加1,说明本次录入已完成并加入人脸特征库:

2.比对人脸

当LED为黄色时(检测到人脸),按动K2按键,此时固件会将当前摄像头前检测到的人脸与已录入的人脸特征进行比对,若对比成功(命中已录入的人脸特征),屏幕中圈中人脸的框将变为绿色,同时开发板上的LED颜色将变为绿色,表示人脸特征比对通过,并在屏幕上显示匹配的人脸特征序号(id)评分(score)

若比对不通过,即当前人脸未在人脸特征库中录入过,屏幕中圈中人脸的框将变为红色,同时开发板上的LED颜色将变为红色,表示人脸特征比对通过。

3.串口日志的查看

本示例同样支持串口日志的打印,可通过连接开发板上的DAP_USB 并使用串口工具打开对应的串口设备进行日志查看,默认波特率 115200,伴随着 人脸录入人脸比对等操作,可看到日志串口有对应的结果输出。

5、头肩跟随+手势识别SDK

头肩跟随

头肩算法介绍

检测图像中所有人体的头肩位置,返回每个头肩的唯一id、位置坐标、检测得分等;

  • 通过摄像头实时获取图像并在屏幕上进行预览显示
  • 在屏幕展示的画面中标注头肩检测和手势识别的结果与评分

头肩跟随算法效果演示

手势识别

通过头肩检测识别用户的手势,返回当前目标的手势、得分等;

支持5种手势,分别为LIKE(👍)、OK(👌)、STOP(🤚)、YES(✌️)、SIX(🤙);

应用场景
跟拍云台

在直播、视频通话场景,通过云台实现人体追踪,让手机一直正面朝向用户进行录像。并且可以通过手势开启、停止追踪。

算法参数
识别效果

为了让用户在常用的交互距离取得比较好的识别效果,我们建议头肩跟踪跟手势识别最短交互距离为0.5m,最佳交互距分别为3.5m/3m,所对应的识别效果如下:

识别能力

最佳交互距离

识别率

虚警率

头肩跟踪

3.5m

95%

5%

手势识别

3m

91%

5%

帧率

以下是分别在单人和多人场景下的帧率:

场景

识别能力

帧率

单人

头肩追踪、手势识别

15FPS

多人

头肩追踪、手势识别

10FPS

6、物体分类

算法简介

CSK6 大模型开发套件可通过摄像头抓拍画面并对该画面进行物体分类识别,支持包括苹果、床、键盘等100+种物体的识别。通过触摸屏可进行取景与抓拍控制,完成拍照后将自动识别并在屏幕上显示识别结果。

本示例演示在开发套件上运行基于pytorch-cifar100训练的resnet18物体分类模型,支持通过摄像头拍照并完成对指定物品的分类识别。

本模型支持以下物体的分类识别:

"apple",       "aquarium_fish", "baby",      "bear",       "beaver",       "bed",
"bee",         "beetle",        "bicycle",   "bottle",     "bowl",         "boy",
"bridge",      "bus",           "butterfly", "camel",      "can",          "castle",
"caterpillar", "cattle",        "chair",     "chimpanzee", "clock",        "cloud",
"cockroach",   "couch",         "crab",      "crocodile",  "cup",          "dinosaur",
"dolphin",     "elephant",      "flatfish",  "forest",     "fox",          "girl",
"hamster",     "house",         "kangaroo",  "keyboard",   "lamp",         "lawn_mower",
"leopard",     "lion",          "lizard",    "lobster",    "man",          "maple_tree",
"motorcycle",  "mountain",      "mouse",     "mushroom",   "oak_tree",     "orange",
"orchid",      "otter",         "palm_tree", "pear",       "pickup_truck", "pine_tree",
"plain",       "plate",         "poppy",     "porcupine",  "possum",       "rabbit",
"raccoon",     "ray",           "road",      "rocket",     "rose",         "sea",
"seal",        "shark",         "shrew",     "skunk",      "skyscraper",   "snail",
"snake",       "spider",        "squirrel",  "streetcar",  "sunflower",    "sweet_pepper",
"table",       "tank",          "telephone", "television", "tiger",        "tractor",
"train",       "trout",         "tulip",     "turtle",     "wardrobe",     "whale",
"willow_tree", "wolf",          "woman",     "worm"

本示例基于开源项目进行移植适配,仅用于 CV 能力的验证与评估,不代表适用于商用项目。

功能展示

  • 点击屏幕 翻转 按钮,可实现对摄像头的影像预览翻转,可根据摄像头是否安装在开发板背面进行切换
  • 点击屏幕 TAKE 按钮,可对当面画面进行拍照并识别

SDK资源下载

大模型拍照识图 :https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/feature/awe_open/apps/LLM_pic

其他功能SDK下载地址:https://cloud.listenai.com/CSKG962172/duomotai_ap/-/tree/master/

  • 坐姿检测: apps目录下,工程目录名称为 lcd_spd
  • 人脸识别: apps目录下,工程目录名称为 fd
  • 活体识别: apps目录下,工程目录名称为 fdh
  • 头肩跟随+手势识别: apps目录下,工程目录名称为 hsd
  • 物体分类: apps目录下,工程目录名称为 resnet18

已打包好的DEMO固件下载:

  • 大模型拍照识图固件:https://docs2.listenai.com/x/UzjbjIAxw
  • 坐姿检测: https://docs2.listenai.com/x/D3CV6m1w6
  • 人脸识别: https://docs2.listenai.com/x/C176n3JaJ
  • 活体识别: https://docs2.listenai.com/x/Pr51i42rn
  • 头肩跟随+手势识别:https://docs2.listenai.com/x/UGGyPHCTL
  • 物体分类: https://docs2.listenai.com/x/urrNYp4Ie

补充开发板信息

开发板具备丰富语音图像功能与硬件外设的开发板,采用有着丰富组件生态的 Zephyr RTOS 作为操作系统,默认配套开箱即玩的 AI 应用,也可以配合聆思的模型训练推理工具 LNN 将自己的算法模型部署至芯片上,构建自己的 AI 应用,开发板详情参考:https://docs2.listenai.com/x/nTn9kMMCU

这篇关于聆思CSK6大模型开发板视觉识别类开源SDK介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055506

相关文章

Java使用Spire.Barcode for Java实现条形码生成与识别

《Java使用Spire.BarcodeforJava实现条形码生成与识别》在现代商业和技术领域,条形码无处不在,本教程将引导您深入了解如何在您的Java项目中利用Spire.Barcodefor... 目录1. Spire.Barcode for Java 简介与环境配置2. 使用 Spire.Barco

2025最新版Android Studio安装及组件配置教程(SDK、JDK、Gradle)

《2025最新版AndroidStudio安装及组件配置教程(SDK、JDK、Gradle)》:本文主要介绍2025最新版AndroidStudio安装及组件配置(SDK、JDK、Gradle... 目录原生 android 简介Android Studio必备组件一、Android Studio安装二、A

Java领域模型示例详解

《Java领域模型示例详解》本文介绍了Java领域模型(POJO/Entity/VO/DTO/BO)的定义、用途和区别,强调了它们在不同场景下的角色和使用场景,文章还通过一个流程示例展示了各模型如何协... 目录Java领域模型(POJO / Entity / VO/ DTO / BO)一、为什么需要领域模

Redis的安全机制详细介绍及配置方法

《Redis的安全机制详细介绍及配置方法》本文介绍Redis安全机制的配置方法,包括绑定IP地址、设置密码、保护模式、禁用危险命令、防火墙限制、TLS加密、客户端连接限制、最大内存使用和日志审计等,通... 目录1. 绑定 IP 地址2. 设置密码3. 保护模式4. 禁用危险命令5. 通过防火墙限制访问6.

深入理解Redis线程模型的原理及使用

《深入理解Redis线程模型的原理及使用》Redis的线程模型整体还是多线程的,只是后台执行指令的核心线程是单线程的,整个线程模型可以理解为还是以单线程为主,基于这种单线程为主的线程模型,不同客户端的... 目录1 Redis是单线程www.chinasem.cn还是多线程2 Redis如何保证指令原子性2.

5 种使用Python自动化处理PDF的实用方法介绍

《5种使用Python自动化处理PDF的实用方法介绍》自动化处理PDF文件已成为减少重复工作、提升工作效率的重要手段,本文将介绍五种实用方法,从内置工具到专业库,帮助你在Python中实现PDF任务... 目录使用内置库(os、subprocess)调用外部工具使用 PyPDF2 进行基本 PDF 操作使用

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

如何正确识别一台POE交换机的好坏? 选购可靠的POE交换机注意事项

《如何正确识别一台POE交换机的好坏?选购可靠的POE交换机注意事项》POE技术已经历多年发展,广泛应用于安防监控和无线覆盖等领域,需求量大,但质量参差不齐,市场上POE交换机的品牌繁多,如何正确识... 目录生产标识1. 必须包含的信息2. 劣质设备的常见问题供电标准1. 正规的 POE 标准2. 劣质设

Java中HashMap的用法详细介绍

《Java中HashMap的用法详细介绍》JavaHashMap是一种高效的数据结构,用于存储键值对,它是基于哈希表实现的,提供快速的插入、删除和查找操作,:本文主要介绍Java中HashMap... 目录一.HashMap1.基本概念2.底层数据结构:3.HashCode和equals方法为什么重写Has

Springboot项目构建时各种依赖详细介绍与依赖关系说明详解

《Springboot项目构建时各种依赖详细介绍与依赖关系说明详解》SpringBoot通过spring-boot-dependencies统一依赖版本管理,spring-boot-starter-w... 目录一、spring-boot-dependencies1.简介2. 内容概览3.核心内容结构4.