1.1 Mediapipe随手简记(一)

2024-06-01 17:28
文章标签 1.1 简记 mediapipe 随手

本文主要是介绍1.1 Mediapipe随手简记(一),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

为了后续项目展开,需要Python、C++、Linux、OpenCV、Mediapipe、ROS知识。

最后面有手势识别(数字)精准案例,项目会用到。

Mediapipe学习篇1

Mediapipe 是一个开源的跨平台框架,它提供了大量的解决方案,用于构建高性能、跨平台的计算机视觉应用。Mediapipe 使用计算图(Calculation Graph)来表示算法的执行流程,可以轻松地组合和扩展不同的算法模块。

1. Mediapipe 简介

1.1 Mediapipe 的起源和发展

Mediapipe 由 Google Research 于 2020 年推出,旨在为计算机视觉研究人员和开发者提供一个易于使用、高性能的框架。Mediapipe 提供了多种预训练模型和算法,涵盖了人脸检测、手势识别、姿态估计等领域。

1.2 Mediapipe 的特点和优势

  • 易于使用:Mediapipe 的 API 设计简洁易懂,易于学习和使用。
  • 高性能:Mediapipe 使用计算图优化算法的执行流程,可以实现高性能的实时处理。
  • 跨平台:Mediapipe 支持多种操作系统,包括 Windows、Linux、Mac OS、Android 和 iOS。
  • 模块化:Mediapipe 的算法模块是可插拔的,可以轻松地组合和扩展不同的算法。

2. Mediapipe 安装和配置

2.1 Mediapipe 安装

Mediapipe 可以通过 pip 包管理工具进行安装:

pip install mediapipe

2.2 Mediapipe 配置

安装 Mediapipe 后,你需要在代码中导入 mediapipe 模块才能使用其功能。

3. Mediapipe 基础

3.1 计算图 (Calculation Graph)

计算图是 Mediapipe 的核心概念,它用于表示算法的执行流程。计算图由节点 (Node) 和边 (Edge) 组成,节点表示算法模块,边表示数据流。 示例(非完全)

# 创建计算图
mp_drawing = mp.solutions.drawing_utils
mp_hands = mp.solutions.hands
# 创建 Hand 类实例
hands = mp_hands.Hands()
# 读取图像
img = cv2.imread('image.jpg')
# 将图像转换为 RGB 格式
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = hands.process(img_rgb)
# 绘制手势关键点
if results.multi_hand_landmarks:for hand_landmarks in results.multi_hand_landmarks:mp_drawing.draw_landmarks(img,hand_landmarks,mp_hands.HAND_CONNECTIONS,)
# 显示图像
cv2.imshow('Image', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

3.2 节点 (Node)

节点是计算图中的基本单元,它表示一个算法模块。每个节点都可以接收输入数据,并生成输出数据。 示例

# 创建 Hand 类实例
hands = mp_hands.Hands()

3.3 边 (Edge)

边是连接节点的数据流,它表示节点之间的数据传递关系。 示例

# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = hands.process(img_rgb)

3.4 数据流

数据流是节点之间传递的数据,它可以是图像、关键点、检测框等。在 Mediapipe 中,数据流通常使用 NormalizedLandmarkListDetectionLandmarks 等数据结构来表示。 示例(非完全)

# 创建 Hand 类实例
hands = mp_hands.Hands()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = hands.process(img_rgb)
# 获取手势关键点
if results.multi_hand_landmarks:for hand_landmarks in results.multi_hand_landmarks:# hand_landmarks 是一个 NormalizedLandmarkList 对象# 它包含手部的 21 个关键点的位置信息for landmark in hand_landmarks.landmark:# landmark 是一个 Landmark 对象# 它包含关键点的 x, y, z 坐标x = landmark.xy = landmark.yz = landmark.z

数据结构说明

  • NormalizedLandmarkList:表示一组归一化的关键点,其中每个关键点的坐标值都在 0 到 1 之间。
  • Detection:表示一个检测框,包含检测框的位置、置信度等信息。
  • Landmarks:表示一组关键点,包含关键点的坐标信息。

4. Mediapipe 常用算法模块

4.1 人脸检测

Mediapipe 提供了人脸检测模块,可以用于检测图像或视频中的 faces。 示例(非完全)

mp_face_detection = mp.solutions.face_detection
# 创建 FaceDetection 类实例
face_detection = mp_face_detection.FaceDetection()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 检测图像中的人脸
results = face_detection.process(img_rgb)
# 绘制人脸矩形框
if results.detections:for detection in results.detections:mp_drawing.draw_detection(img, detection)

4.2 手势识别

Mediapipe 提供了手势识别模块,可以用于识别图像或视频中的手势。 示例(非完全)

mp_hands = mp.solutions.hands
# 创建 Hand 类实例
hands = mp_hands.Hands()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = hands.process(img_rgb)
# 绘制手势关键点
if results.multi_hand_landmarks:for hand_landmarks in results.multi_hand_landmarks:mp_drawing.draw_landmarks(img,hand_landmarks,mp_hands.HAND_CONNECTIONS,)

4.3 姿态估计

Mediapipe 提供了姿态估计模块,可以用于估计图像或视频中的姿态。 示例(非完全)

mp_pose = mp.solutions.pose
# 创建 Pose 类实例
pose = mp_pose.Pose()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = pose.process(img_rgb)
# 绘制姿态关键点
if results.pose_landmarks:mp_drawing.draw_landmarks(img,results.pose_landmarks,mp_pose.POSE_CONNECTIONS,)

4.4 目标跟踪

Mediapipe 提供了目标跟踪模块,可以用于跟踪图像或视频中的目标。 示例(非完全)

mp_objectron = mp.solutions.objectron
# 创建 Objectron 类实例
objectron = mp_objectron.Objectron()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = objectron.process(img_rgb)
# 获取目标信息
if results.multi_object_detections:for detection in results.multi_object_detections:# detection 是一个 Detection 对象# 它包含目标的检测框、置信度等信息bounding_box = detection.bounding_boxscore = detection.score

示例(非完全)

mp_objectron = mp.solutions.objectron
# 创建 Objectron 类实例
objectron = mp_objectron.Objectron()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = objectron.process(img_rgb)
# 获取目标信息
if results.multi_object_detections:for detection in results.multi_object_detections:# detection 是一个 Detection 对象# 它包含目标的检测框、置信度等信息bounding_box = detection.bounding_boxscore = detection.score

4.5 人体姿态估计

Mediapipe 提供了人体姿态估计模块,可以用于估计图像或视频中的姿态。 示例(非完全)

mp_pose = mp.solutions.pose
# 创建 Pose 类实例
pose = mp_pose.Pose()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = pose.process(img_rgb)
# 获取姿态关键点
if results.pose_landmarks:# results.pose_landmarks 是一个 Landmarks 对象# 它包含人体姿态的 33 个关键点的位置信息for landmark in results.pose_landmarks.landmark:# landmark 是一个 Landmark 对象# 它包含关键点的 x, y, z 坐标x = landmark.xy = landmark.yz = landmark.z

4.6 表情识别

Mediapipe 提供了表情识别模块,可以用于识别图像或视频中的表情。 示例(非完全)

mp_face_mesh = mp.solutions.face_mesh
# 创建 FaceMesh 类实例
face_mesh = mp_face_mesh.FaceMesh()
# 读取图像
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
# 处理图像
results = face_mesh.process(img_rgb)
# 获取面部关键点
if results.multi_face_landmarks:for face_landmarks in results.multi_face_landmarks:# face_landmarks 是一个 Landmarks 对象# 它包含面部 478 个关键点的位置信息for landmark in face_landmarks.landmark:# landmark 是一个 Landmark 对象# 它包含关键点的 x, y, z 坐标x = landmark.xy = landmark.yz = landmark.z

5. Mediapipe 高级功能

5.1 自定义模型

Mediapipe 支持自定义模型,允许开发者使用自己的模型进行图像处理、计算机视觉和机器学习等任务。这可以通过以下步骤实现:

  1. 训练模型:使用如 TensorFlow、PyTorch 等深度学习框架训练你的模型。
  2. 导出模型:将训练好的模型导出为 ONNX 或 TF Lite 等格式。
  3. 加载模型:在 Mediapipe 中加载导出的模型。
  4. 使用模型:在处理图像时,使用加载的模型进行预测。

示例

# 加载自定义模型
model = load_model('path_to_custom_model')
# 使用自定义模型处理图像
predictions = model.predict(img)

5.2 性能优化

Mediapipe 提供了多种性能优化工具,可以帮助开发者提高算法的执行效率。以下是一些性能优化的方法:

  1. CPU/GPU 加速:Mediapipe 可以使用 CPU 或 GPU 进行加速,提高算法的执行效率。在构建计算图时,可以通过指定 .with_cpu() 或 .with_gpu() 方法来选择使用 CPU 或 GPU。
    # 使用 CPU 进行加速
    hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5)
    # 使用 GPU 进行加速
    hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)
  2. 量化模型:Mediapipe 支持量化模型,可以减小模型的体积,提高模型的执行速度。在构建计算图时,可以通过指定 .with_default_model_complexity() 方法来选择模型复杂度,从而实现量化。
    # 选择模型复杂度为 1,进行量化
    hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)
  3. 模型剪枝:Mediapipe 支持模型剪枝,可以去除模型中不必要的参数,提高模型的执行速度。在构建计算图时,可以通过指定 .with_default_model_complexity() 方法来选择模型复杂度,从而实现模型剪枝。
    # 选择模型复杂度为 1,进行模型剪枝
    hands = mp_hands.Hands(static_image_mode=True, max_num_hands=2, min_detection_confidence=0.5, min_tracking_confidence=0.5, model_complexity=1)

5.3 跨平台支持

Mediapipe 支持多种操作系统,包括 Windows、Linux、Mac OS、Android 和 iOS。这使得开发者可以轻松地将 Mediapipe 应用到不同的平台上。

6. Mediapipe 数据结构

Mediapipe 中的数据结构用于存储和传递计算图中的数据。以下是 Mediapipe 中一些常用的数据结构:

6.1 NormalizedLandmarkList

NormalizedLandmarkList 是一个数据结构,用于存储归一化的关键点坐标。每个关键点坐标都是相对于输入图像的尺寸归一化的。

class NormalizedLandmarkList:num_landmarks: intlandmark: List[NormalizedLandmark]

其中,num_landmarks 是关键点的数量,landmark 是一个包含所有关键点的列表,每个关键点是一个 NormalizedLandmark 对象。

6.2 Detection

Detection 是一个数据结构,用于存储检测框的位置、置信度等信息。

class Detection:bounding_box: BoundingBoxscore: floatclassification: Classification

其中,bounding_box 是检测框的位置,score 是置信度,classification 是分类信息。

6.3 Landmarks

Landmarks 是一个数据结构,用于存储关键点的坐标信息。

class Landmarks:num_landmarks: intlandmark: List[Landmark]

其中,num_landmarks 是关键点的数量,landmark 是一个包含所有关键点的列表,每个关键点是一个 Landmark 对象。

6.4 BoundingBox

BoundingBox 是一个数据结构,用于存储检测框的位置。

class BoundingBox:origin: Originsize: Size

其中,origin 是检测框的左上角坐标,size 是检测框的尺寸。

6.5 Classification

Classification 是一个数据结构,用于存储分类信息。

class Classification:label: strscore: float

其中,label 是分类标签,score 是置信度。

6.6 Origin

Origin 是一个数据结构,用于存储位置信息。

class Origin:x: floaty: float

其中,x 和 y 是位置坐标。

6.7 Size

Size 是一个数据结构,用于存储尺寸信息。

class Size:width: floatheight: float

其中,width 和 height 是尺寸大小。 通过这些数据结构,Mediapipe 可以有效地存储和传递计算图中的数据,使得开发者可以轻松地构建和运行复杂的计算机视觉应用。

手势识别代码案例(精准)

代码地址:Mediapipe_hand_detect: 这份代码是使用Mediapipe进行手势识别,超精准

这篇关于1.1 Mediapipe随手简记(一)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1021641

相关文章

usaco 1.1 Broken Necklace(DP)

直接上代码 接触的第一道dp ps.大概的思路就是 先从左往右用一个数组在每个点记下蓝或黑的个数 再从右到左算一遍 最后取出最大的即可 核心语句在于: 如果 str[i] = 'r'  ,   rl[i]=rl[i-1]+1, bl[i]=0 如果 str[i] = 'b' ,  bl[i]=bl[i-1]+1, rl[i]=0 如果 str[i] = 'w',  bl[i]=b

【WebGPU Unleashed】1.1 绘制三角形

一部2024新的WebGPU教程,作者Shi Yan。内容很好,翻译过来与大家共享,内容上会有改动,加上自己的理解。更多精彩内容尽在 dt.sim3d.cn ,关注公众号【sky的数孪技术】,技术交流、源码下载请添加微信号:digital_twin123 在 3D 渲染领域,三角形是最基本的绘制元素。在这里,我们将学习如何绘制单个三角形。接下来我们将制作一个简单的着色器来定义三角形内的像素

1.1 Avtivity的生命周期全面分析

本文将Activity的生命周期分为两部分内容,一部分是典型情况下的生命周期,另一部分是异常情况下的生命周期。所谓典型情况下的生命周期,是指在有用户参与的情况下,Activity所经过的生命周期的改变;而异常情况下的生命周期是指在Activity被系统回收或者由于当前设备的Configuration发生改变从而导致Activity被销毁重建,异常情况下的生命周期的关注点和典型情况下略有不同。 1

随手记3-js报InvalidCharacterError错

// 下面那样创建dom元素,都ie新老版本都兼容                 var div = document.createElement ("div");          div.id = "aA";          div.setAttribute ("class", "gG");          div.innerH

随手记(2)-java.sql.SQLException: [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序

问题描述: 在使用Java连接access数据的.mdb文件时候程序报如下错误 java.sql.SQLException: [Microsoft][ODBC 驱动程序管理器] 未发现数据源名称并且未指定默认驱动程序     错误原因: 在win7 office2013下报错 解决方法:  查看Java桥连程序连接字符串是否写成{Microsoft Access Driver (*.m

随手记(1)-cxf和xercesImpl.jar冲突

JaxWsDynamicClientFactory clientFactory = JaxWsDynamicClientFactory.newInstance();  Client client = clientFactory.createClient(url);   result = client.invoke("methodName", condition); 在使用CXF框架调用远端

2020 1.1版本的idea中git的使用场景

1、克隆项目 File-->New-->Project from Version Control 2、拉取远程的分支到本地 右下角-->(Remote Branches)选定分支-->checkout 3、将master分支更新的代码合并至bry分支并提交到远程仓库    (目的:实时与master的最新代码保持一致) 右下角-->(Local Branches)checkout br

行空板上YOLO和Mediapipe视频物体检测的测试

Introduction 经过前面三篇教程帖子(yolov8n在行空板上的运行(中文),yolov10n在行空板上的运行(中文),Mediapipe在行空板上的运行(中文))的介绍,我们对如何使用官方代码在行空板上运行物体检测的AI模型有了基本的概念,并对常见的模型进行了简单的测试和对比。 在行空板上YOLO和Mediapipe图片物体检测的测试(中文)中我们对于行空板上使用YOLO和Medi

第八章 软件测试简记

第八章  软件测试 软件测试:在软件投入运行前对软件需求分析、软件设计规格说明和软件编码进行差错和纠正。 软件测试的目标: 1.用最少的人力、时间找出软件潜在的各种错误和缺陷; 2.能够确认软件实现的功能和用户需求上是一样的; 3.能够收集到足够的测试结果为软件可靠性提供依据; 软件测试的任务:根据软件开发各个阶段的文档资料和程序的内部结构,精心设计

第六章 详细设计简记

第六章  详细设计       详细设计不是具体的编程,而是要设计出程序的“蓝图”,详细设计不仅仅是逻辑上正确的实现每个模块的功能,更重要的是设计出来的处理工程应该简明易懂。       详细设计的目的:为软件结构图中的每一个模块确定使用的算法和块内的数据结构,并用某种选定的表达工具给出清晰的描述。       详细设计的任务:           1.为每