ML-Agents案例之蠕虫

2024-04-03 18:32
文章标签 案例 ml 蠕虫 agents

本文主要是介绍ML-Agents案例之蠕虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本案例源自ML-Agents官方的示例,Github地址:https://github.com/Unity-Technologies/ml-agents,本文是详细的配套讲解。

本文基于我前面发的两篇文章,需要对ML-Agents有一定的了解,详情请见:Unity强化学习之ML-Agents的使用、ML-Agents命令及配置大全。

我前面的相关文章有:

ML-Agents案例之Crawler

ML-Agents案例之推箱子游戏

ML-Agents案例之跳墙游戏

ML-Agents案例之食物收集者

ML-Agents案例之双人足球

Unity人工智能之不断自我进化的五人足球赛

ML-Agents案例之地牢逃脱

ML-Agents案例之金字塔

在这里插入图片描述

环境说明

本环境可以参考ML-Agents案例之Crawler,两者的环境极其相似,都是仿生机器人,不同的只是仿生的对象不同,一个是蠕虫,一个是爬虫。奖励目标也是一致的,我们需要训练的是一个蠕虫形状的仿生机器人,让它自己学会蠕动前行,面向目标行走,最后吃到绿色的方块,并且这个过程越迅速越好。
首先我们来讲讲智能体本身的构造:

在这里插入图片描述

在这里插入图片描述

如上图所示,蠕虫分为四个部分。分别是一个头部和三节身躯(可以自己拓展到任意节数),四个部分由三个关节连接而成,可以看到,第一节身躯是头部的子物体,第二节身躯是第一节身躯的子物体,第三节身躯是第二节的子物体。(这里我个人的想法是四个部分应该相互独立,而不是子物体关系,否则前面关节的移动将导致后面整体的移动,待验证,可以自己改一下看看能否训练起来)

下面是第一个关节的设置:

在这里插入图片描述

在这里插入图片描述

可以看到这个关节的位置移动是锁定的,对于角度移动锁定了z轴,对于x轴和y轴限制一定角度的移动,如上图所示,我们可以通过Edit Angular Limits可视化调节。第二第三个关节同理。

想要控制各个关节的运动,我们需要在智能体上挂载一个JointDriveController.cs的脚本,这个脚本不会自己运作,只有在别的脚本的调用下才会起作用。关于这个脚本的代码说明参考ML-Agents案例之Crawler。

状态输入:首先是整个身体的主干部分到地面的距离,一维。目标的前进向量,三维。目标向量与智能体本体的朝向的夹角除以180,一维。智能体本体的朝向到目标朝向的旋转,四元数,四维。目标方块相对于智能体的坐标,三维。每节躯体的移动速度和角速度和是否接触地面,4 * 7维,每个关节的力度,3 * 1维。除了头部的躯体相对于头部的位置以及旋转,3 * 7维。一共是64维。

动作输出:三个关节,每个关节有x,y两个轴可以旋转,还需要输出关节转动的力度,一共有3 * 3共9维的连续输出。

代码讲解

我们直接看WormAgents.cs脚本:

定义变量

const float m_MaxWalkingSpeed = 10; //最高行走速度[Header("Target Prefabs")] public Transform TargetPrefab; // 目标方块
private Transform m_Target; 
// 智能体的四节躯体位置
[Header("Body Parts")] public Transform bodySegment0;
public Transform bodySegment1;
public Transform bodySegment2;
public Transform bodySegment3;//这个方块的设置为一个稳定的空间参考点,可以提高学习效果
OrientationCubeController m_OrientationCube;// 箭头指示器的脚本
DirectionIndicator m_DirectionIndicator;
JointDriveController m_JdController;private Vector3 m_StartingPos; //starting position of the agent

初始化方法Initialize():

public override void Initialize()
{SpawnTarget(TargetPrefab, transform.position); // 生成目标方块m_StartingPos = bodySegment0.position;	// 头部是整个身躯的父物体,代表整个身躯的初始位置m_OrientationCube = GetComponentInChildren<OrientationCubeController>();m_DirectionIndicator = GetComponentInChildren<DirectionIndicator>();m_JdController = GetComponent<JointDriveController>();// 更新自己身上的指向方块UpdateOrientationObjects();// 初始化各节身躯m_JdController.SetupBodyPart(bodySegment0);m_JdController.SetupBodyPart(bodySegment1);m_JdController.SetupBodyPart(bodySegment2);m_JdController.SetupBodyPart(bodySegment3);
}
// 生成目标方块
void SpawnTarget(Transform prefab, Vector3 pos)
{m_Target = Instantiate(prefab, pos, Quaternion.identity, transform.parent);
}
// 更新自己身上的指向方块以及地上的指向箭头
void UpdateOrientationObjects()
{// 更新指向箭头m_OrientationCube.UpdateOrientation(bodySegment0, m_Target);// 更新指向方块if (m_DirectionIndicator){m_DirectionIndicator.MatchOrientation(m_OrientationCube.transform);}
}

在OrentationCubeController.cs中有:

public void UpdateOrientation(Transform rootBP, Transform target)
{var dirVector = target.position - transform.position;dirVector.y = 0; //flatten dir on the y. this will only work on level, uneven surfacesvar lookRot =dirVector == Vector3.zero? Quaternion.identity: Quaternion.LookRotation(dirVector); //get our look rot to the target//UPDATE ORIENTATION CUBE POS & ROTtransform.SetPositionAndRotation(rootBP.position, lookRot);
}

状态输入CollectObservations方法:

// 对于每节身躯的输入
public void CollectObservationBodyPart(BodyPart bp, VectorSensor sensor)
{// 是否接触地面sensor.AddObservation(bp.groundContact.touchingGround ? 1 : 0); // 相对于指向方块空间中的刚体速度和角速度,如果是输入是世界空间中的向量,效果会不好sensor.AddObservation(m_OrientationCube.transform.InverseTransformDirection(bp.rb.velocity));sensor.AddObservation(m_OrientationCube.transform.InverseTransformDirection(bp.rb.angularVelocity));// 后面三节身躯相对于头部的位置和本地的空间旋转if (bp.rb.transform != bodySegment0){sensor.AddObservation(m_OrientationCube.transform.InverseTransformDirection(bp.rb.position - bodySegment0.position));sensor.AddObservation(bp.rb.transform.localRotation);}// 输入每个关节的控制力度if (bp.joint)sensor.AddObservation(bp.currentStrength / m_JdController.maxJointForceLimit);
}public override void CollectObservations(VectorSensor sensor)
{// 输入身躯与地面的距离RaycastHit hit;float maxDist = 10;if (Physics.Raycast(bodySegment0.position, Vector3.down, out hit, maxDist)){sensor.AddObservation(hit.distance / maxDist);}elsesensor.AddObservation(1);var cubeForward = m_OrientationCube.transform.forward;var velGoal = cubeForward * m_MaxWalkingSpeed;// 输入目标的移动速度(三维向量)sensor.AddObservation(m_OrientationCube.transform.InverseTransformDirection(velGoal));// 输入现在的rotation和目标rotation的夹角sensor.AddObservation(Quaternion.Angle(m_OrientationCube.transform.rotation,m_JdController.bodyPartsDict[bodySegment0].rb.rotation) / 180);// 输入现在的前进方向到目标前进方向的四元数sensor.AddObservation(Quaternion.FromToRotation(bodySegment0.forward, cubeForward));// 输入目标方块相对于自身的坐标sensor.AddObservation(m_OrientationCube.transform.InverseTransformPoint(m_Target.transform.position));// 每一节身躯的输入,详情看上面的CollectObservationBodyPart方法foreach (var bodyPart in m_JdController.bodyPartsList){CollectObservationBodyPart(bodyPart, sensor);}
}

动作输出方法OnActionReceived:

public override void OnActionReceived(ActionBuffers actionBuffers)
{// 获取身躯的字典var bpDict = m_JdController.bodyPartsDict;var i = -1;// 获取连续输入的列表var continuousActions = actionBuffers.ContinuousActions;// 输入三个关节的旋转bpDict[bodySegment0].SetJointTargetRotation(continuousActions[++i], continuousActions[++i], 0);bpDict[bodySegment1].SetJointTargetRotation(continuousActions[++i], continuousActions[++i], 0);bpDict[bodySegment2].SetJointTargetRotation(continuousActions[++i], continuousActions[++i], 0);// 输入关节的力度bpDict[bodySegment0].SetJointStrength(continuousActions[++i]);bpDict[bodySegment1].SetJointStrength(continuousActions[++i]);bpDict[bodySegment2].SetJointStrength(continuousActions[++i]);// 如果掉到地面的下方,结束游戏if (bodySegment0.position.y < m_StartingPos.y - 2){EndEpisode();}
}

每一个episode(回合)开始时执行的方法OnEpisodeBegin:

public override void OnEpisodeBegin()
{// 重新初始化各个身躯的参数foreach (var bodyPart in m_JdController.bodyPartsList){bodyPart.Reset(bodyPart);}// 随机旋转,使得智能体初始时面朝的方向随机bodySegment0.rotation = Quaternion.Euler(0, Random.Range(0.0f, 360.0f), 0);// 更新指向方块和指向箭头UpdateOrientationObjects();
}

每0.02秒执行一次的FixedUpdate:

void FixedUpdate()
{// 更新指向方块和指向箭头UpdateOrientationObjects();// 当实际移动速度和目标速度越接近,获得的奖励越高var velReward =GetMatchingVelocityReward(m_OrientationCube.transform.forward * m_MaxWalkingSpeed,m_JdController.bodyPartsDict[bodySegment0].rb.velocity);// 指向方块的朝向和躯体朝向的夹角var rotAngle = Quaternion.Angle(m_OrientationCube.transform.rotation,m_JdController.bodyPartsDict[bodySegment0].rb.rotation);var facingRew = 0f;// 当智能体面朝的方向和目标方向的夹角小于30度,给予一定的奖励if (rotAngle < 30){facingRew = 1 - (rotAngle / 180);}// 面朝奖励和移动奖励相乘得到实际奖励AddReward(velReward * facingRew);
}
public float GetMatchingVelocityReward(Vector3 velocityGoal, Vector3 actualVelocity)
{var velDeltaMagnitude = Mathf.Clamp(Vector3.Distance(actualVelocity, velocityGoal), 0, m_MaxWalkingSpeed);return Mathf.Pow(1 - Mathf.Pow(velDeltaMagnitude / m_MaxWalkingSpeed, 2), 2);
}

本案例还给环境加上了一个AdjustTrainingTimescale的脚本:

using UnityEngine;namespace MLAgentsExamples
{public class AdjustTrainingTimescale : MonoBehaviour{// Update is called once per framevoid Update(){if (Input.GetKeyDown(KeyCode.Alpha1)){Time.timeScale = 1f;}if (Input.GetKeyDown(KeyCode.Alpha2)){Time.timeScale = 2f;}if (Input.GetKeyDown(KeyCode.Alpha3)){Time.timeScale = 3f;}if (Input.GetKeyDown(KeyCode.Alpha4)){Time.timeScale = 4f;}if (Input.GetKeyDown(KeyCode.Alpha5)){Time.timeScale = 5f;}if (Input.GetKeyDown(KeyCode.Alpha6)){Time.timeScale = 6f;}if (Input.GetKeyDown(KeyCode.Alpha7)){Time.timeScale = 7f;}if (Input.GetKeyDown(KeyCode.Alpha8)){Time.timeScale = 8f;}if (Input.GetKeyDown(KeyCode.Alpha9)){Time.timeScale = 9f;}if (Input.GetKeyDown(KeyCode.Alpha0)){Time.timeScale *= 2f;}}}
}

这个脚本可以通过按键盘上方的数字键自由调整游戏运行速率。

配置文件

PPO算法:

behaviors:Worm:trainer_type: ppohyperparameters:batch_size: 2024buffer_size: 20240learning_rate: 0.0003beta: 0.005epsilon: 0.2lambd: 0.95num_epoch: 3learning_rate_schedule: linearnetwork_settings:normalize: truehidden_units: 512num_layers: 3vis_encode_type: simplereward_signals:extrinsic:gamma: 0.995strength: 1.0keep_checkpoints: 5max_steps: 7000000time_horizon: 1000summary_freq: 30000

SAC算法:

behaviors:Worm:trainer_type: sachyperparameters:learning_rate: 0.0003learning_rate_schedule: constantbatch_size: 256buffer_size: 500000buffer_init_steps: 0tau: 0.005steps_per_update: 20.0save_replay_buffer: falseinit_entcoef: 1.0reward_signal_steps_per_update: 20.0network_settings:normalize: truehidden_units: 512num_layers: 3vis_encode_type: simplereward_signals:extrinsic:gamma: 0.995strength: 1.0keep_checkpoints: 5max_steps: 5000000time_horizon: 1000summary_freq: 30000

效果演示

在这里插入图片描述

后记

本案例是继爬虫机器人Crawler之后的另一个ML-Agents中的仿生机器人的案例,这种案例相比于其他没有关节的智能体来说,难点就是关节和身体各个部位的观测和控制,需要采用更为严格的措施来使训练稳定。例如加入一个指向方块使得输入更加稳定。

和Crawler相比,这里有个新增的ML-Agents实验性的传感器Rigid Body Sensor Component没有用上,这个组件能够给关节提供更好的状态输入接口,对于有关节的智能体来说,可以尝试加上该组件,看看能够改善训练。

这篇关于ML-Agents案例之蠕虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/873668

相关文章

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

客户案例:安全海外中继助力知名家电企业化解海外通邮困境

1、客户背景 广东格兰仕集团有限公司(以下简称“格兰仕”),成立于1978年,是中国家电行业的领军企业之一。作为全球最大的微波炉生产基地,格兰仕拥有多项国际领先的家电制造技术,连续多年位列中国家电出口前列。格兰仕不仅注重业务的全球拓展,更重视业务流程的高效与顺畅,以确保在国际舞台上的竞争力。 2、需求痛点 随着格兰仕全球化战略的深入实施,其海外业务快速增长,电子邮件成为了关键的沟通工具。

【区块链 + 人才服务】区块链集成开发平台 | FISCO BCOS应用案例

随着区块链技术的快速发展,越来越多的企业开始将其应用于实际业务中。然而,区块链技术的专业性使得其集成开发成为一项挑战。针对此,广东中创智慧科技有限公司基于国产开源联盟链 FISCO BCOS 推出了区块链集成开发平台。该平台基于区块链技术,提供一套全面的区块链开发工具和开发环境,支持开发者快速开发和部署区块链应用。此外,该平台还可以提供一套全面的区块链开发教程和文档,帮助开发者快速上手区块链开发。

STL经典案例(四)——实验室预约综合管理系统(项目涉及知识点很全面,内容有点多,耐心看完会有收获的!)

项目干货满满,内容有点过多,看起来可能会有点卡。系统提示读完超过俩小时,建议分多篇发布,我觉得分篇就不完整了,失去了这个项目的灵魂 一、需求分析 高校实验室预约管理系统包括三种不同身份:管理员、实验室教师、学生 管理员:给学生和实验室教师创建账号并分发 实验室教师:审核学生的预约申请 学生:申请使用实验室 高校实验室包括:超景深实验室(可容纳10人)、大数据实验室(可容纳20人)、物联网实验

(入门篇)JavaScript 网页设计案例浅析-简单的交互式图片轮播

网页设计已经成为了每个前端开发者的必备技能,而 JavaScript 作为前端三大基础之一,更是为网页赋予了互动性和动态效果。本篇文章将通过一个简单的 JavaScript 案例,带你了解网页设计中的一些常见技巧和技术原理。今天就说一说一个常见的图片轮播效果。相信大家在各类电商网站、个人博客或者展示页面中,都看到过这种轮播图。它的核心功能是展示多张图片,并且用户可以通过点击按钮,左右切换图片。

SpringMVC的第一个案例 Helloword 步骤

第一步:web.xml配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocati

真实案例分享:零售企业如何避免销售数据的无效分析?

在零售业务的数据分析中,无效分析不仅浪费时间和资源,还可能导致错误的决策。为了避免这种情况,企业必须采取策略来确保他们的数据分析工作能够产生实际的商业价值。本文将通过行业内真实的案例,探讨零售企业如何通过精心设计的数据策略和分析方法,借助商业智能BI工具,避免销售数据的无效分析,确保每一次分析都能为业务增长提供有力的支持。 文章中提到的BI数据分析工具分享给大家—— https://s.fan