一键部署 Llama3 8B/70B!最高仅占1.07GB存储;COCONut上线,字节跳动推出的首个大规模全景图像分割数据集

本文主要是介绍一键部署 Llama3 8B/70B!最高仅占1.07GB存储;COCONut上线,字节跳动推出的首个大规模全景图像分割数据集,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

近日,Meta 震撼发布了号称「开源 GPT-4」的大模型 Llama3,该模型惊动了整个 AI 圈,HyperAI超神经也迫不及待想要体验一下!hyper.ai 官网现已在公共教程上线「一键部署 Llama3」! 有没有人和我一样激动的搓手手?赶紧来运行一下~

4 月 22 日-4 月 26 日,hyper.ai 官网更新速览:

  • 优质公共数据集:10 个

  • 优质教程精选:3 个

  • 社区文章精选:5 篇

  • 热门百科词条:5 条

访问官网:hyper.ai

公共数据集精选

1. COCONut 大规模全景图像分割数据集

COCONut 是由字节跳动发布的首个大规模人工标注的全景图像分割数据集,包含约 383K 图像和 518 万个经过人工标注的全景分割掩码。该成果已入选 CVPR2024。

直接使用:https://go.hyper.ai/43gIy

2. Solar System Planets 太阳系行星数据集

该数据集包含太阳系所有行星的 .jpg 格式图片,数据集分为训练集、测试集和验证集。每个集都包含 9 个不同行星的子集:地球、水星、金星、地球、火星、木星、土星、天王星和海王星。

直接使用:https://go.hyper.ai/awnIo

3. Chinese medical dialogue data 中文医疗问答数据集

该数据集为中文医疗问答数据集,包含 6 个不同医疗科室的问答数据文件夹,每个文件夹下有一个 csv 文件。

直接使用:https://go.hyper.ai/scsmp

4. TAL-SCQ5K 好未来中文数学竞赛数据集

TAL-SCQ5K 是一组高质量中文数学竞赛数据集,包含 5K 道中文数学竞赛题目(3K 道用于训练,2K 道用于测试),提供中文和英文两种语言。

直接使用:https://go.hyper.ai/RqwbX

5. 安徽电信知道问答数据集

该数据集包含 15.6 万条安徽电信问答数据,包括用户提问、网友回答、最佳回答,数据集来源为百度知道,适用于 FAQ 问答系统任务。

直接使用:https://go.hyper.ai/CMkpM

6. WikiArt 维基艺术图像数据集

该数据集包含来自 1,119 位不同艺术家、 27 种风格的 80,020 张独特图像,数据来源于 WikiArt.org,WikiArt 数据集只能用于非商业研究目的。

直接使用:https://go.hyper.ai/nCKMw

7. Wonders Of World 世界奇观数据集

该数据集包含世界上 50 个最令人惊叹的地标,这些地标均选自著名的新七大奇迹列表。数据集信息包括地标的:名称、类型、位置、维基百科链接、图片链接和建造年份。

直接使用:https://go.hyper.ai/qQLA4

8. Google Landmarks Photos 谷歌地标图片数据集

该数据集包含约 12 万个地标图片的 URL,每个地标图片都有唯一的 ID,有助于实例识别和图像检索任务。

直接使用:https://go.hyper.ai/fJ5kO

9. GIS World Data File GIS 世界数据文件数据集

该数据集为世界地图的形状数据集,包含国家边界、一级行政管理(省、州等)、有争议的地区、海岸线、人口稠密地区等各种比例级别的地图。

直接使用:https://go.hyper.ai/hcwKe

10. SSDO 大规模海表溶解氧数据集

该数据集为论文「基于时空机器学习的卫星全球海表氧气测绘与解释」中使用的数据。基于该论文研究搭建的框架 DOsurface-Pred Framework,研究团队生成了跨越 2010-2018 年的大规模海表溶解氧数据集,包含卫星数据、固定船只和电导仪测量数据。

直接使用:https://go.hyper.ai/d9w8B

更多公共数据集,请访问

https://hyper.ai/datasets

公共教程精选

1. 使用 Ollama 和 Open WebUI 部署 Llama3-8B-Instruct

该教程为 Ollama + Open WebUI 一键运行包,只需按步骤输入命令即可运行 Llama3-8B-Instruct 大模型。

在线运行:https://go.hyper.ai/7lZyb

2. 使用 Ollama 和 Open WebUI 部署 Llama3-70B

该教程通过 Ollama 和 Open WebUI 工具来一键运行模型,仅需按步骤输入命令即可运行 Llama3-70B 大模型。虽然模型参数较大,但经过平台部署后使用单卡 A6000 即可使用,仅占用 1.07 GB 存储。

在线运行:https://go.hyper.ai/u4XHj

3. 在线教程丨刘强东数字人首秀交易额破 5 千万!用 GeneFace++ 生成实时说话数字人

GeneFace++ 作为一种通用且稳定的实时音频驱动 3D 说话人脸生成技术,可以通过改进唇形同步、视频质量和系统效率,实现实时说话人的生成。「GeneFace++ 数字人 Demo」教程现已上线hyper.ai 官网,并且为大家搭建好环境,简化了数字人的制作流程,无需担心环境配置、硬件需求和版本兼容等问题,点击在线运行即可一键启动。

在线运行:https://go.hyper.ai/4BwgN

社区文章精选

1. 【数学数据集汇总】天才博士陶哲轩力荐数据集!含代码、中文竞赛题目、正向逆向问答对等

干货来了!hyper.ai 汇总了 10 个数学分类数据集,内含天才数学家陶哲轩力荐的数据集资源,助力 AI for Math 的发展研究。

查看详细干货:https://go.hyper.ai/6Vhrb

2. 基于美日 627 例患者的临床数据,谷歌证实 AI 辅助肺癌筛查的群体有效性

基于 AI 的快速发展,谷歌团队研究了机器学习模型如何有效地将研究结果传达给放射科医生,评估了广义人工智能辅助系统在特定工作流程环境、设备和国家特定指南和评分/管理协议下对肺癌筛查工作流程的影响,并在美国和日本进行测试。结果表明,在人工智能辅助下,平均每位病例筛查时间可减少 14 秒。研究论文已经发表于「Radiology AI」期刊。

查看完整报道:https://go.hyper.ai/wiCl0

3. 【活动汇总】纽约大学 AI Meets Science;第十六届生物信息学和生物医学技术国际会议;Bio-IT World2024

HyperAI 超神经网罗了海内外 AI for Science 垂类会议,并整理会议信息与链接,一键直达官方主页,不错过任何一场重量级活动!本文为近期的活动汇总。

查看完整文章:https://go.hyper.ai/HTGNG

4. 纳米尺度下的单粒子追踪,厦门大学方宁团队用 AI 奏响「细胞里的摇滚」

厦门大学方宁教授团队基于深度学习研发了一种自动化、高速、多维的单粒子追踪系统,打破了细胞微环境中纳米颗粒旋转追踪的局限性,实现了在纳米尺度下,全方位、精准追踪活细胞内单分子/单个纳米颗粒。本文是该研究的详细解读和分享该论文已经发表于权威期刊「Nano Letters」。

查看完整报道:https://go.hyper.ai/G4k2e

5 . 解构海洋缺氧:浙大 GIS 实验室融合机器学习及卫星测绘,发布全球海表溶解氧综合建模框架

浙大 GIS 实验室研究人员将机器学习技术与卫星产品相结合,开发了一个全球海表溶解氧综合建模框架 DOsurface-Pred Framework,证实了即使在氧气充足的海表区域,其溶解氧含量也出现了下降趋势,而这种趋势主要归因于海表温度的变化。研究论文已经发表于「ACS Publications」。

查看完整报道:https://go.hyper.ai/NlRmn

热门百科词条精选

1. 故障词元 Glitch Token

2. 多模态大语言模型 MLLM

3. 掩码语言建模 MLM

4. 分组查询注意力 GQA

5. 变分自编码器 VAE

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

B 站直播预告

Google 日前宣布将于当地时间 5 月 14 日举办 2024 年度 I/O 开发者大会,为了帮助大家深入了解,超神经直播间将持续直播「Google 专题」视频, 涉及:Google I/O 历年发布会、高管访谈、相关纪录片等丰富内容。

下表为小编为大家精选的内容预告↓↓↓

日期时间内容
4 月 29 日 星期一18:00Google 历年 I/O 发布会
4 月 30 日星期二18:00Google Cloud NEXT 历年大会
5 月 1 日星期三18:00TIME100 访谈Sundar Pichai
5 月 2 日星期四18:00Google 首席执行官谈中美人工智能竞赛
5 月 3 日星期五18:00AlphaGo 纪录片
5 月 4 日星期六18:00Google 纪录片背后创始人的故事
5 月 5 日星期日18:00BBC 纪录片没有 Google 的世界

超神经电视台 7×24h 不间断直播,点击即可收获 AI 领域的「电子榨菜」:

http://live.bilibili.com/26483094

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1400+ 公开数据集提供国内加速下载节点

  • 收录 300+ 经典及流行在线教程

  • 解读 100+ AI4Science 论文案例

  • 支持 500+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

这篇关于一键部署 Llama3 8B/70B!最高仅占1.07GB存储;COCONut上线,字节跳动推出的首个大规模全景图像分割数据集的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/938090

相关文章

闲置电脑也能活出第二春?鲁大师AiNAS让你动动手指就能轻松部署

对于大多数人而言,在这个“数据爆炸”的时代或多或少都遇到过存储告急的情况,这使得“存储焦虑”不再是个别现象,而将会是随着软件的不断臃肿而越来越普遍的情况。从不少手机厂商都开始将存储上限提升至1TB可以见得,我们似乎正处在互联网信息飞速增长的阶段,对于存储的需求也将会不断扩大。对于苹果用户而言,这一问题愈发严峻,毕竟512GB和1TB版本的iPhone可不是人人都消费得起的,因此成熟的外置存储方案开

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分