Coggle数据科学 | KDD Cup 2024:亚马逊LLMs购物挑战

2024-04-20 21:04

本文主要是介绍Coggle数据科学 | KDD Cup 2024:亚马逊LLMs购物挑战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。

原文链接:KDD Cup 2024:亚马逊LLMs购物挑战

  • 赛题名称:Amazon KDD Cup 2024: Multi-Task Online Shopping Challenge for LLMs

  • 赛题类型:大模型、推荐系统、多任务

https://www.aicrowd.com/challenges/amazon-kdd-cup-2024-multi-task-online-shopping-challenge-for-llms

1 赛题背景

本次挑战旨在简化在线购物的流程,通过大型语言模型(LLMs)来帮助人们更轻松地选择最适合的礼物。在传统的在线购物过程中,人们需要浏览无数产品,阅读评论以评估质量,比较价格,最终决定购买。这个过程耗时且有时令人不知所措,因为信息和选择的数量庞大。

ShopBench 挑战的目标是利用大型语言模型的多任务和少样本学习能力,简化在线购物的复杂性。 我们相信,LLMs有潜力掌握在线购物的这些复杂性。通过设计强大的LLMs,我们可以改善现有技术,使其更好地帮助人们在在线购物中导航,使其变得更加直观和令人满意,就像现实生活中一位熟知商品的购物助理一样。

ShopBench 是一个全面的基准测试,模拟了真实世界中在线购物的复杂性。我们邀请参与者设计强大的LLMs,以改善最先进的技术如何更好地帮助我们在在线购物中导航。

2 赛题介绍

在线购物是一个复杂的过程,涉及从浏览到购买的各种任务,都需要洞察客户的行为和意图。这需要能够利用任务之间共享知识的多任务学习模型。然而,许多当前的模型都是特定于任务的,增加了开发成本,限制了效果。大型语言模型(LLMs)有潜力改变这一状况,通过一个模型处理多个任务,并通过微小的提示调整实现。

在LLMs的潜力和挑战的推动下,我们推出了 ShopBench,一个针对在线购物的大规模挑战,包含 57 个任务和约 20000 个问题,来源于真实的亚马逊购物数据。此挑战中的所有问题都重新格式化为统一的文本生成格式,以适应基于LLMs的解决方案的探索。ShopBench 主要关注四个主要的购物技能(将作为 Tracks 1-4):

  • 购物概念理解

  • 购物知识推理

  • 用户行为对齐

  • 多语言能力

此外,我们设置了 Track 5: 全能,以鼓励更加多才多艺和全面的解决方案。Track 5 要求参与者使用单一解决方案解决 Tracks 1-4 中的所有问题,这种解决方案预计将比特定于 Tracks 1-4 的解决方案更加原则和统一。我们将相应地分配更大的奖励给 Track 5。

3 赛题时间轴

  • 网站上线和注册开始时间:2024年3月15日 23:55 UTC

  • 第一阶段开始日期:2024年3月18日 23:55 UTC

  • 参赛报名截止日期和第一阶段结束日期:2024年5月10日 23:55 UTC

  • 第二阶段开始日期:2024年5月15日 23:55 UTC

  • 结束日期:2024年7月10日 23:55 UTC

  • 获奖者通知日期:2024年7月15日

  • 获奖者公布日期:2024年8月26日(在KDD 2024上)

在第一阶段,所有注册的团队都可以参加。第一阶段结束后,只有排名前25%的团队才能进入第二阶段。第二阶段将包含更难的样本和任务,最终获胜者将完全根据第二阶段的数据确定。获奖者将在2024年7月15日收到通知,正式的获奖者公告将在2024年8月26日的KDD 2024上发布。

4 赛题奖励

挑战设有总奖金池,总额为$41,500,分为以下三种类型的奖项:

  • 获奖者奖励:我们将在每个赛道中分别奖励第一、第二和第三名的获胜者,以现金奖励形式。

  • AWS 优惠券:每个赛道中排名第一的团队之后的团队将获得 AWS 优惠券奖励。

  • 学生奖励:我们知道,开发LLMs需要大量的计算资源和工程投入,而这两者对学生来说都不易获取。因此,我们为每个赛道中最优秀的学生团队(即所有参与者都是学生)设立了专门的学生奖励,以激励学生开发资源高效的解决方案。

具体来说,Tracks 1-4 的奖金设置如下:

  • 🥇 第一名:$2,000

  • 🥈 第二名:$1,000

  • 🥉 第三名:$500

  • 第4-7名:AWS 优惠券价值 $500

  • 🏅 学生奖:$750

Track 5(全能赛道)的奖金设置如下:

  • 🥇 第一名:$7,000

  • 🥈 第二名:$3,500

  • 🥉 第三名:$1,500

  • 第4-8名:AWS 优惠券价值 $500

  • 🏅 学生奖:$2,000

所有奖项都是累积的。例如,如果你的解决方案在全能赛道中排名第二,在第四赛道中排名第三,你可以获得总计500=$4,000的现金奖励。然而,全能赛道的解决方案不会自动被视为适用于 Tracks 1-4。你必须提交到相应赛道才能有资格。

除了现金奖励外,获胜团队还将有机会在与 ACM SIGKDD 2024 举办的 KDD Cup 工作坊 2024 上展示他们的作品。

5 赛题数据集

本挑战中使用的 ShopBench 是从真实的亚马逊购物数据中采样的匿名化多任务数据集。ShopBench 的统计数据如下表所示:

属性名称数据
任务数量57
问题数量20598
商品数量~13300
商品类别数量400
属性数量1032
评论数量~11200
查询数量~4500

ShopBench 被划分为少样本开发集和测试集,以更好地模拟现实世界的应用场景 --- 在这种情况下,你事先不知道客户的问题。在这种设置下,我们鼓励参与者使用任何公开可用的资源(例如预训练模型、文本数据集)来构建他们的解决方案,而不是过度拟合给定的开发数据(例如使用 GPT 生成伪数据样本)。

开发数据集将以 json 格式提供,包含以下字段:

  • 'input_field':该字段包含指令和模型应该回答的问题。

  • 'output_field':该字段包含问题的真实答案。

  • 'task_type':该字段包含任务类型(详见下一节“任务”)。

  • 'metric':该字段包含用于评估问题的指标(详见“评估指标”部分)。

然而,测试数据集(将对参与者隐藏)将具有不同的格式,只包含两个字段:

  • 'input_field',与上述相同。

  • 'is_multiple_choice':该字段包含一个 'True' 或 'False',指示问题是否是多项选择题。不会向参与者提供详细的“task_type”。

6 赛题任务

ShopBench旨在评估四项重要的购物技能,对应挑战的Track 1-4。

  • 购物概念理解:在线购物中存在许多领域特定概念,如品牌、产品线等。而且,这些概念通常存在于短文本中,如查询,使得模型在没有足够上下文的情况下理解它们变得更具挑战性。这项技能强调了LLMs理解和回答与这些概念相关的问题的能力。

  • 购物知识推理:人们在购物决策时涉及到复杂的推理和隐含知识,例如数字推理(例如计算产品包的总金额)、多步推理(例如识别两个产品是否与彼此兼容)。这项技能侧重评估模型在具有领域特定隐含知识的产品或产品属性上的推理能力。

  • 用户行为对齐:用户行为建模在在线购物中至关重要。然而,用户行为多样化,包括浏览、购买、查询然后点击等。此外,大多数行为都是隐含的,没有以文本形式表达出来。因此,与异构和隐含的购物行为对齐是在线购物中语言模型面临的独特挑战,这也是这个赛道的主要目标。

  • 多语言能力:多语言模型在在线购物中特别受欢迎,因为它们可以在多个市场上部署而无需重新训练。因此,我们包括了一个独立的多语言赛道,包括多语言概念理解和用户行为对齐,以评估单一模型在不同购物地点的表现,而无需重新训练。

此外,我们设置了Track 5:全能,要求参与者使用统一的解决方案解决Track 1-4中的所有问题,以进一步强调解决方案的通用性和多功能性。

ShopBench涉及五种类型的任务,所有任务都重新格式化为文本到文本生成,以适应基于LLMs的解决方案。

  • 多项选择:每个问题与几个选项相关联,模型需要输出一个正确的选项。

  • 检索:每个问题与一个需求和一个候选项列表相关联,模型需要检索满足需求的所有项。

  • 排名:每个问题与一个需求和一个候选项列表相关联,模型需要根据每个项满足需求的程度重新对所有项进行排名。

  • 命名实体识别:每个问题与一段文本和一个实体类型相关联,模型需要从文本中提取出属于实体类型的所有短语。

  • 生成:每个问题与一条指示和一个问题相关联,模型需要根据指示生成文本片段以回答问题。生成问题有多种类型,包括抽取式生成、翻译、详细说明等。

为了测试解决方案的泛化能力,开发集将只涵盖部分 57 个任务,导致挑战期间未见过的任务。然而,开发集将覆盖所有 5 种任务类型,以帮助参与者理解提示和输出格式。

7 评估框架

为了确保全面和公正的评估,该挑战使用了一个隐藏的测试集,对参与者保密,以防止手动标注或操纵,并促进可泛化的解决方案。

ShopBench包括多种类型的任务,每种任务需要特定的评估指标。所选的指标如下:

  • 多项选择:使用准确率来衡量多项选择问题的性能。

  • 检索:使用Hit@3来评估检索任务。ShopBench中的正样本数量不超过3。

  • 排名:使用归一化折现累积增益(NDCG)来评估排名任务。

  • 命名实体识别(NER):使用微平均F1分数来评估NER任务。

  • 生成:根据任务类型不同,使用不同的指标:

    • 抽取式任务(例如,关键词提取)使用ROUGE-L。

    • 翻译任务使用BLEU分数。

    • 对于其他生成任务,我们使用句子转换器来计算生成文本xgen和地面真实文本xgt的句子嵌入。然后,我们计算xgen和xgt之间的余弦相似度(截取到[0, 1])作为指标。这种方法侧重于对文本语义的评估,而不仅仅是令牌级别的准确性。

由于所有任务都被转换为文本生成任务,因此基于规则的解析器将解析参与者解决方案的答案。解析器无法处理的答案将被评分为0。解析器将对参与者开放。

由于所有这些指标范围都在[0, 1]之间,我们计算每个赛道内所有任务的平均指标(宏平均)来确定赛道的整体得分,并识别赛道的获胜者。Track 5的整体得分将通过对Tracks 1-4中的得分进行平均计算得到。

感兴趣的小伙伴们可以参加!

THE END!

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

这篇关于Coggle数据科学 | KDD Cup 2024:亚马逊LLMs购物挑战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/921318

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

跨国公司撤出在华研发中心的启示:中国IT产业的挑战与机遇

近日,IBM中国宣布撤出在华的两大研发中心,这一决定在IT行业引发了广泛的讨论和关注。跨国公司在华研发中心的撤出,不仅对众多IT从业者的职业发展带来了直接的冲击,也引发了人们对全球化背景下中国IT产业竞争力和未来发展方向的深思。面对这一突如其来的变化,我们应如何看待跨国公司的决策?中国IT人才又该如何应对?中国IT产业将何去何从?本文将围绕这些问题展开探讨。 跨国公司撤出的背景与

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi