赛事分享 Amazon KDD Cup 2024: Multi-Task Online Shopping Challenge for LLMs

2024-03-23 23:04

本文主要是介绍赛事分享 Amazon KDD Cup 2024: Multi-Task Online Shopping Challenge for LLMs,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。
🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


赛事链接:https://www.aicrowd.com/challenges/amazon-kdd-cup-2024-multi-task-online-shopping-challenge-for-llms

简述

想象一下,您正试图通过网店为朋友的生日寻找一份完美的礼物。您必须浏览无数产品,阅读评论以衡量质量,比较价格,最后决定购买。这个过程非常耗时,有时还会因为信息量和可选项太多而不知所措。网上购物的复杂性在于,既要在产品、评论和价格的网络中穿梭,又要根据自己的理解和偏好做出最佳决定,这可能会让人不知所措。

这项挑战旨在利用大语言模型(LLM)简化这一过程。虽然目前的技术往往无法理解特定购物术语和知识的细微差别、客户行为、偏好以及产品和语言的多样性,但我们相信,大语言模型具有多任务和少量学习的能力,有潜力驾驭如此复杂的在线购物。在这一潜力的激励下,本挑战赛推出了 ShopBench,这是一个模拟现实世界中在线购物复杂性的综合基准。我们邀请参与者设计功能强大的 LLM,以改进最先进的技术如何更好地帮助我们浏览网上购物,使其成为一种更直观、更令人满意的体验,就像现实生活中知识渊博的购物助手一样。

🛍️ 介绍

网上购物非常复杂,涉及从浏览到购买的各种任务,所有这些任务都需要深入了解客户的行为和意图。这就需要能够利用跨任务共享知识的多任务学习模型。然而,目前的许多模型都是针对特定任务的,从而增加了开发成本并限制了有效性。大语言模型(LLM)可以通过一个模型处理多个任务,只需稍作提示调整,从而有可能改变这种状况。此外,大语言模型还可以通过提供互动和及时的建议来改善客户体验。然而,网上购物作为一个高度特定的领域,具有广泛的特定领域概念(如品牌、产品线)和知识(如哪个品牌生产哪些产品),这使得将普通领域现有的功能强大的 LLM 应用于网上购物具有挑战性。

受 LLM 的潜力和挑战的启发,我们提出了 ShopBench,这是一个针对在线购物的大型挑战赛,共有 57 个任务~20000 个问题,均来自真实世界的亚马逊购物数据。该挑战赛中的所有问题都是按照统一的文本到文本生成格式重新制定的,以适应对基于 LLM 的解决方案的探索。ShopBench 重点关注四种主要的关键购物技能(将作为赛道 1-4):

  • 购物概念理解
  • 购物知识推理
  • 用户行为对齐
  • 多语言能力

除此之外,我们还设置了赛道 5:全能以鼓励更多功能和全方位的解决方案。赛道 5 要求参赛者用一个解决方案解决赛道 1-4 中的所有问题,与赛道 1-4 的特定解决方案相比,赛道 5 的解决方案预计会更有原则性和统一性。因此,我们会相应地为赛道 5 设置更高的奖项。

我们希望本次挑战赛能为参赛者提供宝贵的实践经验,帮助他们针对实际问题开发基于 LLM 的先进技术。我们还相信,这项挑战赛将为面向用户的在线服务行业提供强大且随时可用的基于 LLM 的解决方案,并为整个机器学习社区提供有关 LLM 培训和开发的有益见解和指导。

📅 时间线

挑战赛将分为两个阶段。第一阶段将对所有报名参赛的团队开放。第一阶段结束后,我们将采用前 25% 的分数线,只有在第一阶段排名前 1/4 的团队才能进入第二阶段。

相应地,ShopBench 将分成两个不相连的测试集,第 2 阶段将包含更难的样本和任务。最终的优胜者将完全由第 2 阶段的数据决定。

  • 网站上线并开始注册:2024 年 3 月 15 日 23:55 UTC
  • 第 1 阶段开始日期:2024 年 3 月 18 日 23:55 UTC
  • 报名截止日期和第 1 阶段结束日期:2024 年 5 月 10 日 23:55 UTC
  • 第 2 阶段开始日期:2024 年 5 月 15 日 23:55 UTC
  • 结束日期:2024 年 7 月 10 日 23:55 UTC
  • 优胜者通知:2024 年 7 月 15 日
  • 优胜者公布:2024 年 8 月 26 日(在 KDD 2024 大会上)

🏆 奖项设置

挑战赛的奖金总额为 41,500 美元,分为以下三种类型:

  • Winner Prizes:我们将为每个赛道的优胜者(第一名、第二名和第三名)颁发现金奖励。
  • AWS Credits:紧随各赛道优胜者之后的参赛队将获得 AWS Credits。
  • Student Awards:我们意识到开发 LLM 需要大量计算资源和工程努力,而这两者都不是学生所能获得的。因此,我们专门为每个赛道的最佳学生团队(即所有参赛者均为学生)设立了学生奖,以激励学生开发资源高效型解决方案。

具体来说,赛道 1-4 有以下奖项:

  • 🥇 第一名:2,000 美元
  • 🥈 第二名:1,000 美元
  • 🥉 第三名:500 美元
  • 第四名至第七名:AWS Credits 500 美元
  • 🏅 学生奖:750 美元

赛道 5(全能)设有以下奖项:

  • 🥇 第一名:7,000 美元
  • 🥈 第二名:3,500 美元
  • 🥉 第三名:1,500 美元
  • 第四名至第八名:AWS Credits 500 美元
  • 🏅 学生奖:2,000 美元

所有奖项均可累计。例如,如果您的解决方案在赛道 5 排名第二,同时在赛道 4 排名第三,那么您可以获得总共 3,500+500=4,000 的现金奖励。但是,赛道 5 的解决方案不会自动获得赛道 1-4 的参赛资格。您必须向赛道提交方案才有资格参赛。

除现金奖励外,获奖团队还将有机会在与 ACM SIGKDD 2024 联合举办的 KDD Cup workshop 2024 上展示他们的作品。

📊 数据集

本次挑战赛使用的 ShopBench 是一个匿名的多任务数据集,取样于真实世界的亚马逊购物数据。ShopBench 的统计数据如下表所示。

# Tasks# Questions# Products# Product Category# Attributes# Reviews# Queries
5720598~133004001032~11200~4500

ShopBench 分为 few-shot 开发集和测试集,以更好地模拟真实世界的应用——在真实世界中,你永远无法事先知道客户的问题。在这种设置下,我们鼓励参与者使用任何公开的资源(如预训练模型、文本数据集)来构建解决方案,而不是过度拟合给定的开发数据(如使用 GPT 生成伪数据样本)。

开发数据集将以 json 格式提供,包含以下字段。

  • input_field:该字段包含指令和模型应回答的问题。
  • output_field:该字段包含问题的真实答案。
  • task_type:该字段包含任务类型(详情见下一节 “任务”)。
  • metric:该字段包含用于评估问题的指标(详情请参阅 "评估指标 "部分)。

不过,测试数据集(将不向参与者公开)将采用不同的格式,只有两个字段:

  • input_field,与上述内容相同。
  • is_multiple_choice:该字段包含 TrueFalse,表示问题是否为多项选择。不会向参与者提供详细的 “任务类型”。

👨‍💻👩‍💻 任务

ShopBench 用于评估四种重要的购物技能,与挑战赛的赛道 1-4 相对应。

  • 购物概念理解:在线购物中有许多特定领域的概念,如品牌、产品系列等。此外,这些概念往往存在于查询等简短文本中,这使得模型在没有足够语境的情况下理解这些概念变得更具挑战性。这项技能强调 LLM 理解和回答与这些概念相关的问题的能力。
  • 购物知识推理:人们在做出购物决定时会涉及复杂的内隐知识推理,如数字推理(如计算产品包装的总金额)、多步骤推理(如识别两种产品是否相互兼容)。这项技能的重点是利用特定领域的隐性知识评估模型对产品或产品属性的推理能力。
  • 用户行为对齐:用户行为建模在网上购物中至关重要。然而,用户行为多种多样,包括浏览、购买、查询-点击等。此外,大多数行为都是隐含的,没有用文本表达。因此,如何与异构和隐式购物行为对齐是在线购物语言模型面临的独特挑战,这也是本研究方向的主要目标。
  • 多语言能力:在线购物尤其需要多语言模型,因为它们可以在多个市场中部署,而无需重新培训。因此,我们加入了一个单独的多语种赛道,包括多语种概念理解和用户行为调整,以评估单一模型在不同购物地点的表现,而无需重新训练。

此外,我们还设置了赛道 5:全能,要求参赛者用统一的解决方案解决赛道 1-4 中的所有问题,以进一步强调解决方案的通用性和多样性。

ShopBench 一共涉及 5 种类型的任务,为了适应基于 LLM 的解决方案,所有任务都被重新表述为文本到文本的生成。

  • 多项选择:每个问题都有多个选项,要求模型输出一个正确选项。
  • 检索:每个问题都与一个需求和一个候选项目列表相关联,模型需要检索满足需求的所有项目。
  • 排序:每个问题都与一个要求和一个候选项目列表相关联,模型需要根据每个项目满足要求的程度对所有项目重新排序。
  • 命名实体识别:每个问题都与一段文本和一个实体类型相关联。模型需要从文本中提取属于实体类型的所有短语。
    生成:每个问题都与一个指令和一个问题相关联,要求模型按照指令生成文本片段来回答问题。生成问题有多种类型,包括提取生成、翻译、阐述等。

为了测试解决方案的通用能力,开发集将只涵盖全部 57 个任务中的一部分,因此有的任务在整个挑战赛中都是不可见的。不过,开发集将涵盖所有 5 种任务类型,以帮助参赛者理解提示和输出格式。

🖊 评价框架

评价协议

为确保评估的全面性和公正性,挑战赛使用了一个不向参赛者公开的隐藏测试集,以防止人工标记或篡改,并推广可推广的解决方案。

评价指标

ShopBench 包括多种类型的任务,每种任务都需要特定的评估指标。所选指标如下:

  • 多项选择:Accuracy 用于衡量多项选择的成绩。
  • 排序:Normalized Discounted Cumulative Gain (NDCG) 用于评估排序任务。
  • 命名实体识别(NER):Micro-F1 分数用于评估 NER 任务。
  • 检索:Hit@3 用于评估检索任务。在整个 ShopBench 中,正样本的数量不超过 3 个。
  • 生成: 衡量标准因任务类型而异:
    • 提取任务(如关键词提取)使用 ROUGE-L。
    • 翻译任务使用 BLEU 分数。
    • 对于其他生成任务,我们使用 Sentence Transformer 来计算生成文本 xgen 和基本真实文本 xgt 的句子嵌入,然后计算 xgen 和 xgt 之间的余弦相似度(剪切至 [0, 1])作为度量标准。这种方法侧重于对文本语义的评估,而不仅仅是 token 级的准确性。

由于所有任务都转换为文本生成任务,因此基于规则的解析器将解析参赛者解决方案中的答案。解析器无法处理的答案将被记为 0 分。

由于所有这些指标的范围都在 [0, 1] 之间,因此我们计算每个赛道内所有任务的平均指标(macro-averaged),以确定赛道的总分,并确定赛道优胜者。赛道 5 的总分将通过计算赛道 1-4 的平均分得出。

🚀 Baseline 解决方案

我们用 Baseline 解决方案对 ShopBench 进行了测试,以衡量挑战的可行性。我们开发了一个 pipeline,提示 LLM 以 zero-shot 的方式回答问题,为参与者提供初步指导。下表列出了一个开源 LLM(Vicuna-7B)和两个专有 LLM(Claude 2 和 Amazon Titan)的测试结果:

Models赛道 1:购物概念理解赛道 2:购物知识推理赛道 3:用户行为对齐赛道 4:多语言能力赛道 5:全能
Vicuna-7B-v1.50.52730.44530.41030.43820.4553
Claude 20.75110.63820.63220.65240.6685
Amazon Titan0.61050.45000.50630.55310.5300

Vicuna-7B 证明了这一挑战的可行性,它在所有赛道上都使用了 zero-shot 提示,并取得了不俗的成绩。此外,Vicuna-7B 和 Claude 2 之间的比较显示出相当大的性能差距(在所有赛道中约为 0.2),表明与基线相比还有改进的潜力。我们鼓励参与者开发有效的解决方案来缩小甚至消除差距。

注:Amazon Titan 和 Claude 2(甚至 Claude 3)均可通过 AWS Bedrock 访问。我们将在 3 月下旬举办一次关于如何使用 AWS Bedrock 的教程,还将为每个团队发放少量 Credits,供其动手操作。敬请期待!

🗃️ 提交

挑战赛将以代码竞赛的形式进行评估。参赛者必须提交他们的代码和基本资源,如微调模型权重和检索增强生成(RAG)指数,这些代码和资源将在我们的服务器上运行以生成结果,然后进行评估。

提交说明

有关提交说明,请参阅 starter kit 和 submission guideline。

硬件和系统配置

我们对每位参赛者运行其解决方案的可用硬件进行了限制。具体来说:

  • 所有解决方案都将在配备 NVIDIA T4 GPUs 的 AWS g4dn.12xlarge 实例上运行。
  • 第一阶段的解决方案将使用 2 x NVIDIA T4 GPU。
  • 第二阶段的解决方案将使用 4 x NVIDIA T4 GPU。请注意,NVIDIA T4 使用的是过时的架构,因此与某些加速工具包(如 Flash Attention)不兼容,因此请注意兼容性。

此外,还将实施以下限制:

  • 网络连接将被禁用(用于下载开源检查点的 HuggingFace 除外)。
  • 每份参赛作品都将被分配一定的运行时间。超过时间限制的作品将被剔除,不予评审。暂定时限如下:
阶段赛道 1赛道 2赛道 3赛道 4赛道 5
第一阶段140 分钟40 分钟60 分钟60 分钟5 小时

作为参考,使用 zero-shot Vicuna-7B 的 Baseline 解决方案(在此查找)消耗的时间如下:

Phase赛道 1赛道 2赛道 3赛道 4
第一阶段~50 分钟
  • 每个团队每周最多可提交 3 次解决方案,最多可提交 1 次赛道 5:全能的解决方案。

根据硬件和系统配置,我们建议参与者从 7B 模型开始。根据我们的实验,Vicuna-7B 和 Mistral 等 7B 模型可以在 2 个 NVIDIA T4 GPU 上顺利进行推理,而 13B 模型则会导致 OOM。

评估和排行榜

该方法使用未公开的测试数据集进行少量学习,构建实时排行榜并确定最终获胜者。

利用外部资源

通过仅提供少量开发集,我们鼓励参与者利用公共资源来构建自己的解决方案。但是,参与者应确保所使用的数据集或模型是公开的,所有参与者均可平等使用。这种限制排除了大公司的专有数据集和模型。允许参赛者对现有数据集进行重新表述(例如手动或使用 ChatGPT 添加额外数据/标签),但应在比赛结束后将其公开。

提交技术报告和规范

比赛结束后,我们将通知可能的获胜者,他们需要提交一份技术报告,描述他们的解决方案以及复制其解决方案所需的代码。组织者将审查提交的内容,检查解决方案是否符合挑战赛规则。通过审核的团队将有机会在 KDD Cup 2024 Workshop 上展示其解决方案。

🏛️ KDD Cup Workshop

KDD Cup 是由 Association for Computing Machinery’s Special Interest Group on Knowledge Discovery and Data Mining (ACM SIGKDD) 组织的年度数据挖掘和知识发现竞赛。比赛旨在促进数据挖掘和知识发现领域的研究和发展,为研究人员和从业人员提供一个平台,分享他们对各领域挑战性问题的创新解决方案。KDD Cup Workshop 2024 将于 2024 年 8 月 25 日(星期日)至 8 月 29 日(星期四)在西班牙巴塞罗那与 ACM SIGKDD 2024 同时举行。

📱 联系

请使用 kddcup2024@amazon.com 与 Amazon KDD Cup 2024 团队联系。

本次比赛的组织者主要来自 Amazon Rufus 团队。他们是:

  • Yilun Jin
  • Zheng Li
  • Chenwei Zhang
  • Xianfeng Tang
  • Haodong Wang
  • Mao Li
  • Ritesh Sarkhel
  • Qingyu Yin
  • Yifan Gao
  • Xin Liu
  • Zhengyang Wang
  • Tianyu Cao
  • Jingfeng Yang
  • Ming Zeng
  • Qing Ping
  • Wenju Xu
  • Pratik Jayarao
  • Priyanka Nigam
  • Yi Xu
  • Xian Li
  • Hyokun Yun
  • Jianshu Chen
  • Meng Jiang
  • Kai Chen
  • Bing Yin
  • Qiang Yang
  • Trishul Chilimbi

🤝 鸣谢

我们感谢来自 AWS 的合作伙伴 Paxton Hall 为获奖团队和比赛提供 AWS 积分支持。

这篇关于赛事分享 Amazon KDD Cup 2024: Multi-Task Online Shopping Challenge for LLMs的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/839783

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

2024网安周今日开幕,亚信安全亮相30城

2024年国家网络安全宣传周今天在广州拉开帷幕。今年网安周继续以“网络安全为人民,网络安全靠人民”为主题。2024年国家网络安全宣传周涵盖了1场开幕式、1场高峰论坛、5个重要活动、15场分论坛/座谈会/闭门会、6个主题日活动和网络安全“六进”活动。亚信安全出席2024年国家网络安全宣传周开幕式和主论坛,并将通过线下宣讲、创意科普、成果展示等多种形式,让广大民众看得懂、记得住安全知识,同时还

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

2024/9/8 c++ smart

1.通过自己编写的class来实现unique_ptr指针的功能 #include <iostream> using namespace std; template<class T> class unique_ptr { public:         //无参构造函数         unique_ptr();         //有参构造函数         unique_ptr(