戴上AR眼镜解锁积木的AI玩法

2023-10-19 16:10

本文主要是介绍戴上AR眼镜解锁积木的AI玩法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

54089c2a5c302349e5352d41ec19a746.gif

3aad25691a7f866353536e1a044f915d.png

叶虹霓

@shadow 哈喽,我们写了一篇关于结合AI+AR辅助拼积木的推送文章,想投稿在mixlab的公众号。

好呀,蛮好的~~收稿!
@opus 干活了

7be99551a28bb14b0685a22553fe5822.png

shadow

d65073bb455c0559de651391bda636b3.gif

opus

BrickPal,让我看到了新一代团队作战模式的可能性。他们是2021年 deecamp 人工智能训练营的参赛队伍之一,团队成员跨着不同背景和时区,在3个月的通力合作下,最终获得第3名的成绩。

01b78c3e530b6a4256ed77bdb442f768.png

本文从项目的前期方案构想、技术要点、未来商业三方面,来阐述Airbrick团队是如何萌生出用增强现实(AR)的技术结合人工智能(AI)来优化拼积木的体验,以及他们是如何将想法一步一步落地实现的。

⬆️ 快速了解BrickPal是什么?

💡 人工智能的创新&

积木说明书的生成

由于赛题是既定的,主要围绕人工智能的创新和积木说明书的生成。我们首先对现在市场上的积木说明书的相关产品进行了竞品分析。

主要发现了当前积木说明书的一些痛点,例如传统的纸质说明书的拼装顺序是固定的,并且可视化视角单一,拼好之后说明书将被弃用,积木本身也会被束之高阁。之后我们也对积木玩家和一些资深MOCer进行了调研,我们发现积木更有趣的拼法,和可个性化改造是呼声很高的需求。

最近,越来越多公司将AR技术运用到积木的玩法,和说明书的展现形式中。

例如snapchat推出的connected lenses,允许多人远程共同拼同一套虚拟乐高积木。Lego公司也推出了Lego Hidden Side,在移动端上与积木玩AR抓鬼游戏。同时,我们还读到一篇关于通过AR虚拟积木块来引导拼装真实积木的文章[1],而AR技术恰好能完美解决拼积木体验中的一些痛点,可提供丰富的可视化视角和更有趣的互动体验,这些都启发了我们将说明书的拼装指引结合AR技术来实现。

[1].Yan, Wei. “Augmented Reality Applied to LEGO Construction: AR-based Building Instructions with High Accuracy & Precision and Realistic Object-Hand Occlusions.” ArXiv abs/1907.12549 (2019): n. pag.

💡 非线性拼装

前面还提到说明书的另一个痛点,拼装顺序的固定性。为了打破传统说明书的线性拼装,我们提出了非线性拼装这一概念。

运用NLP来自动生成拼装顺序,让拼装一个积木玩具就像是讲一个故事,并且故事情节是可选择的。也就意味着,系统能够根据用户对要拼的积木块做出的选择来预判和实时推荐下一个要拼的积木块。

针对以上,我们提出了BrickPal的产品方案,覆盖从模型分包,拼装指引,实时拼装顺序生成,部位改造与细节预览等积木拼装体验的全链路,我们使用了AR技术增强用户拼装体验,并通过NLP模型实时预测拼装顺序,给用户带来有趣流畅的积木玩法。

7a30c014881aac58899078965828eb47.png

BrickPal的功能流程以及应用到AR和NLP的环节

我们的方案主要包括3个技术要点:

- NLP:

Assembly as language

即将积木拼装问题建模成语言模型,把积木块像语言一样调整组合;

- AR:

Immersive and gamification

通过增强现实的技术来实现沉浸式游戏化的拼装体验;

- Editing:

In-situ creation

辅助用户改造积木模型,让用户在拼装过程中也能进行创作。

首先,简单介绍下我们是如何将NLP结合到积木拼装上的。考虑到用积木块拼一个积木就像是将词语排列组合成为一句话,我们将拼装问题转换为一个NLP问题,使其具有可微分、可优化的目标。

积木顺序生成和自然语言处理(NLP)这两个问题研究的都是离散的数据。积木块是离散的,积木块能拼的位置也是离散的。另外,由于拼装顺序也有前后的依赖性,我们了解到,Transformer模型中的attention模块能起到相应的作用

d5e18695585bf520055bc67f349cae93.png

但是,积木顺序生成和文本有一个很大的区别,在处理积木块序列的时候要考虑其在整个积木模型中的三维空间结构。

我们首先计算两个积木块之间的相对位置,然后把这个相对位置作为特殊的token插入到两个积木块之间。这样一来,在对积木块顺序进行建模的同时,也融入了积木块的空间位置信息。利用训练好的融合空间信息语言模型,我们可以基于已经拼好的积木块来预测接下来最有可能拼装的积木块。每一步都可以提供一个或多个拼装选择,供用户挑选。

91d2d104eccc09f69c56b95ddc9230a6.png

c34ce498981a6fe57f84c19e2cce47fa.gif

动画显示,通过我们的模型从零生成一个完整的模型序列大概只需要5秒左右。而原本的生成方法时间在5分钟以上。效率上提升了两个数量级。

除了直接生成完整的序列,我们的NLP模型还可以赋予用户在拼装过程中选择的权力,可以不按照固定的说明书流程来拼

这种非线性拼装的方式能够增加交互的游戏乐趣

除了运用NLP技术在积木的顺序生成上,我们也使用了AR技术来辅助和优化积木的拼装体验。

首先,我们使用到的AR头显设备是,有着双目2k分辨率,50°fov视场角,6dof空间定位,105°fov前向rgb的Ori max( 此处感谢@孝吾 为我们倾情赞助的AR眼镜👏),开发工具是unity+vuforia,我们使用的是marker-based AR方法,为此我们还设计了特制的积木底座和支持零件分类的包装盒。

46c0ab558c23df9dd65ceabe41b0be2c.png

在NLP模型输出的多可能拼装选择的基础上,采用积木分包+marker的技术,我们实现了实时拼装积木流程的识别。

针对用户目前的拼装结果,我们的NLP模型会返回多个可能的积木块,每个积木块分别属于不同的积木分包。

通过AR判断用户选择了哪个分包就可以确定用户现在在拼的积木块。并基于此实时生成下一步的拼装选择。

49649e85fcfc693e11196d838703facb.gif

针对传统纸质说明书普遍存在可视化视角单一、拼装位置不明确等问题。我们通过AR增强现实技术将用户需要拼装的下一个或多个积木块虚拟地叠加在已经拼好的模型上,从而实现了更加沉浸式的拼装指引。

我们还允许用户在改装过程中自定义自己的方仔,并在AR中实时预览改装效果。当确定了改装想法后,我们还会实时生成新的改装顺序来引导用户拼装。

3338b7b578398b0e49d8d252dded9ca5.gif

💡 商业

对于这个项目,我们也有一些商业上的思考。

积木每年的市场规模都在稳定增长。消费者对积木模型的多样性与个性化的需求也在不断提升。然而目前大多数大型积木厂商仍然保持着整合设计,包装,售卖于一体的中心化商业模式,难以满足消费者的需求。

以积木市场的龙头乐高公司为例,乐高结合自身的设计能力以及市场调研的综合考量,每年只会推出大约130套全新的模型。这对于消费者来说选择是非常有限的。

因此,我们希望打破中心化的商业模式,转向社交化UGC的积木设计售卖平台,结合社交元素让MOCer与普通用户一起创作积木内容。

ea1c972a6d62d9c30ffe7a79013ba8b6.png

普通用户需要探索自己动手设计模型的参与感。

我们将充分利用不同的平台包括PC端,智能手机,虚拟现实,以及我们的增强技术各自的优势,允许用户对积木模型进行个性化改装,甚至亲手创作积木模型。

而我们的平台也将整合零件生产商提供包括零件供应与分拣,包装,物流与发售的一体化后端系统,让用户一键下单就可以买到自己心仪的积木模型。

00d00ef152d8ebd90c4043f86d31cf50.png

类比于短视频平台降低了视频剪辑的门槛,我们希望我们的平台可以降低普通用户的积木创作门槛,人人都能成为MOCer。

e4abc288004d4aa6137f6a870dd9ae7b.gif

最后,在我们的网站里,用户可以浏览MOCer的个人主页,找到心仪的作品后可以进行AR的预览与改装和一键下单。

💡 团队介绍

1032951a77a0106d85cef3d0a3b18700.png

465d699decf55e42cb4355d0d35421fd.png

# 特别致谢:

张然 ML146、孝吾 ML228

方仔照相馆、未知数字

MOCer:叁焱、耿耿在此、慕舞歆

02cacd3a4020eceba5028a6c2baacd96.gif

949362a16efb5beab5785ca4f0ddd5b8.gif

eva

好有意思呀~~还有哪些推荐资料,可以让我进一步了解的呀?

203046210bbb143803f98be539f016d9.gif

知识库

@eva 可以进一步阅读论文:Computer-Aided Design as Language.

Ganin, Yaroslav et al. “Computer-Aided Design as Language.” ArXiv abs/2105.02769 (2021): n. pag.

99b4a8d7cc7264a7eb6acb98be648783.gif

eva

@孝吾,如果想要用上这款AR眼镜有什么条件?或者合作方式

5984935d91f83e0d9bdec90244db10ed.png

孝吾

ML228

哈哈哈,只要我们觉得好玩有趣的ARMR项目,就可以来聊hhh

5320f958fd31eca0ca1693ee8e61fe84.png

opus

今天收获满满~~~
🤖✖️❤️

如果对以上话题感兴趣

👨🏼‍🎤👩🏻👨🏻‍💼👤🦸🏻🧑🏻‍🎤

欢迎加入社群,

关注后回复:群聊   ⤵️

这篇关于戴上AR眼镜解锁积木的AI玩法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/240889

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

AI基础 L9 Local Search II 局部搜索

Local Beam search 对于当前的所有k个状态,生成它们的所有可能后继状态。 检查生成的后继状态中是否有任何状态是解决方案。 如果所有后继状态都不是解决方案,则从所有后继状态中选择k个最佳状态。 当达到预设的迭代次数或满足某个终止条件时,算法停止。 — Choose k successors randomly, biased towards good ones — Close