Yelp数据集的结构

2024-01-18 03:20
文章标签 数据 结构 yelp

本文主要是介绍Yelp数据集的结构,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Yelp数据集的结构

第一章:yelp_academic_dataset_review.json的结构


提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • Yelp数据集的结构
  • 一、Yelp数据集组成
  • 二、yelp_academic_dataset_review.json文件
    • 1、首先将文件的前20行导出
    • 2、数据(一行)


一、Yelp数据集组成

Yelp数据集主要由五部分组成,分别是

yelp_academic_dataset_business.json包含了Yelp商家信息的数据
每个商家的信息都以JSON格式存储,包括商家的名称、地址、经纬度坐标、类别(如餐厅、咖啡馆等)、营业时间、星级评分以及其他相关信息。这个文件用于描述Yelp平台上注册的商家的基本信息。
yelp_academic_dataset_checkin.json包含用户在Yelp平台上进行签到(Check-in)的数据
签到是指用户在实体店面(如餐厅、商店等)实际到达的时间点记录。这个文件存储了用户签到的时间和商家的信息,可以用于分析用户活动模式和商家受欢迎程度。
yelp_academic_dataset_review.json包含了Yelp用户对商家的评论数据
每条评论都以JSON格式存储,包括用户ID、商家ID、评分、评论文本、评论时间等信息。这个文件是Yelp数据集中最重要的部分,用于进行情感分析、自然语言处理和用户行为分析等任务。
yelp_academic_dataset_tip.json: 包含用户在Yelp平台上对商家的小费(Tip)数据
小费是指用户给予商家的建议、提示或推荐,类似于评论但通常更为简短。每条小费数据都包含了用户ID、商家ID、小费文本、小费时间等信息。
yelp_academic_dataset_user.json: 包含了Yelp平台上用户的基本信息
每个用户的数据都以JSON格式存储,包括用户ID、姓名、注册时间、好友列表、评分分布、评论数量等信息。这个文件提供了关于Yelp用户的一些统计信息和行为模式。

在这里插入图片描述
这里我们只讨论yelp_academic_dataset_review.json

二、yelp_academic_dataset_review.json文件

1、首先将文件的前20行导出

import json
file_path="./yelp-dataset/yelp_academic_dataset_review.json"
output_file_path="./yelp_review.txt"
with open(file_path, 'r') as file:# 创建一个空列表来保存前20行数据json_lines = []# 逐行读取JSON文件并解析每一行的数据for i, line in enumerate(file):try:data = json.loads(line)json_lines.append(json.dumps(data))  # 将解析后的数据重新转换为JSON格式的字符串并保存到列表中# 判断是否已经读取了20行数据,如果是,则跳出循环if i == 19:breakexcept json.JSONDecodeError:print(f"Error decoding JSON on line {i+1}")# 将前20行的JSON数据保存到txt文件中
with open(output_file_path, 'w') as output_file:for line in json_lines:output_file.write(line + '\n')print("前20行JSON数据已保存到txt文件中。")

在这里插入图片描述

2、数据(一行)

{
“review_id”: “KU_O5udG6zpxOg-VcAEodg”,
“user_id”:“mh_-eMZ6K5RLWhZyISBhwA”, “business_id”: “XQfwVwDr-v0ZS3_CbbE5Xw”,
“stars”: 3.0,
“useful”: 0,
“funny”: 0,
“cool”: 0,
“text”: “If you decide to eat here, just be aware it is going to take about 2 hours from beginning to end. We have tried it multiple times, because I want to like it! I have been to it’s other locations in NJ and never had a bad experience. \n\nThe food is good, but it takes a very long time to come out. The waitstaff is very young, but usually pleasant. We have just had too many experiences where we spent way too long waiting. We usually opt for another diner or restaurant on the weekends, in order to be done quicker.”,
“date”: “2018-07-07 22:09:11”
}

这段JSON数据包含了一条Yelp用户对商家的评论信息,以下是该数据的中文解释:

1. "review_id": "KU_O5udG6zpxOg-VcAEodg"

评论的唯一标识符,用于区分不同的评论记录。

2. "user_id": "mh_-eMZ6K5RLWhZyISBhwA"

用户的唯一标识符,用于区分不同的用户。

3. "business_id": "XQfwVwDr-v0ZS3_CbbE5Xw"

商家的唯一标识符,用于指示该评论所属的商家。

4. "stars": 3.0

用户对商家的星级评分,范围通常是1到5,表示对商家的满意程度。

5. "useful": 0

其他用户对这条评论的评价,表示该评论对其他用户是否有用。

6. "funny": 0

其他用户对这条评论是否觉得有趣或幽默。

7. "cool": 0

其他用户对这条评论是否觉得酷或有品味。

8. "text":

“If you decide to eat here, just be aware it is going to take about 2 hours from beginning to end. We have tried it multiple times, because I want to like it! I have been to its other locations in NJ and never had a bad experience. \n\nThe food is good, but it takes a very long time to come out. The waitstaff is very young, but usually pleasant. We have just had too many experiences where we spent way too long waiting. We usually opt for another diner or restaurant on the weekends, in order to be done quicker.”
用户撰写的评论文本,对用户在该商家就餐的体验和观点进行描述。

9. "date": "2018-07-07 22:09:11"

评论发布的日期和时间

这篇关于Yelp数据集的结构的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/617957

相关文章

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文

mysql中的数据目录用法及说明

《mysql中的数据目录用法及说明》:本文主要介绍mysql中的数据目录用法及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、版本3、数据目录4、总结1、背景安装mysql之后,在安装目录下会有一个data目录,我们创建的数据库、创建的表、插入的

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

《Navicat数据表的数据添加,删除及使用sql完成数据的添加过程》:本文主要介绍Navicat数据表的数据添加,删除及使用sql完成数据的添加过程,具有很好的参考价值,希望对大家有所帮助,如有... 目录Navicat数据表数据添加,删除及使用sql完成数据添加选中操作的表则出现如下界面,查看左下角从左

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

SpringBoot中4种数据水平分片策略

《SpringBoot中4种数据水平分片策略》数据水平分片作为一种水平扩展策略,通过将数据分散到多个物理节点上,有效解决了存储容量和性能瓶颈问题,下面小编就来和大家分享4种数据分片策略吧... 目录一、前言二、哈希分片2.1 原理2.2 SpringBoot实现2.3 优缺点分析2.4 适用场景三、范围分片

如何使用Maven创建web目录结构

《如何使用Maven创建web目录结构》:本文主要介绍如何使用Maven创建web目录结构的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录创建web工程第一步第二步第三步第四步第五步第六步第七步总结创建web工程第一步js通过Maven骨架创pytho