千万级别的数据导出Redis、php

2024-08-21 23:52

本文主要是介绍千万级别的数据导出Redis、php,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

要处理千万级别数据涵盖了多表联查、条件筛选、Redis缓存优化、yield生成器优化内存,以及将数据导出到Excel文件。

方案概述

  1. 多表分步查询:避免直接的多表联查,通过逐表查询并在应用层进行数据组合,以减少数据库的锁定风险

  2. Redis 缓存:在多表联查过程中使用 Redis 进行中间结果的缓存,减少数据库查询次数。

  3. yield生成器:通过 PHP 的 yield 生成器逐条处理数据,减少内存占用。

  4. 分批导出:使用 PhpSpreadsheet 进行数据的分批写入,控制内存占用。

MySQL 表结构示例

假设有三张表 orderscustomers, 和 products,分别存储订单信息、客户信息和商品信息。

CREATE TABLE customers (id BIGINT PRIMARY KEY,name VARCHAR(255),email VARCHAR(255)
);CREATE TABLE products (id BIGINT PRIMARY KEY,name VARCHAR(255),price DECIMAL(10, 2)
);CREATE TABLE orders (id BIGINT PRIMARY KEY,customer_id BIGINT,product_id BIGINT,quantity INT,order_date DATETIME,FOREIGN KEY (customer_id) REFERENCES customers(id),FOREIGN KEY (product_id) REFERENCES products(id)
);

1. 分步查询与数据组合

首先分步查询每个表的数据,然后在应用层面合并这些数据,避免复杂的 SQL JOIN 操作

function fetchOrders($pdo, $batchSize, $offset, $conditions) {$sql = "SELECT * FROM orders WHERE $conditions LIMIT :limit OFFSET :offset";$stmt = $pdo->prepare($sql);$stmt->bindValue(':limit', $batchSize, PDO::PARAM_INT);$stmt->bindValue(':offset', $offset, PDO::PARAM_INT);$stmt->execute();return $stmt->fetchAll(PDO::FETCH_ASSOC);
}function fetchCustomers($pdo, $customerIds) {$inQuery = implode(',', array_fill(0, count($customerIds), '?'));$sql = "SELECT * FROM customers WHERE id IN ($inQuery)";$stmt = $pdo->prepare($sql);$stmt->execute($customerIds);return $stmt->fetchAll(PDO::FETCH_ASSOC);
}function fetchProducts($pdo, $productIds) {$inQuery = implode(',', array_fill(0, count($productIds), '?'));$sql = "SELECT * FROM products WHERE id IN ($inQuery)";$stmt = $pdo->prepare($sql);$stmt->execute($productIds);return $stmt->fetchAll(PDO::FETCH_ASSOC);
}function combineData($orders, $customers, $products) {$customerMap = array_column($customers, null, 'id');$productMap = array_column($products, null, 'id');foreach ($orders as &$order) {$order['customer_name'] = $customerMap[$order['customer_id']]['name'] ?? '';$order['product_name'] = $productMap[$order['product_id']]['name'] ?? '';$order['price'] = $productMap[$order['product_id']]['price'] ?? 0.0;}return $orders;
}

2. 使用 Redis 缓存中间数据

在进行下一步的查询和数据处理之前,缓存中间结果,减少重复查询。

function cacheOrdersInRedis($redis, $orders, $batchSize) {foreach ($orders as $order) {$redis->rpush('orders_cache', json_encode($order));}
}function getOrdersFromRedis($redis, $batchSize) {return array_map('json_decode', $redis->lrange('orders_cache', 0, $batchSize - 1));
}

3. 使用 yield 优化内存使用

通过 yield 逐条处理数据,避免内存占用过多。

function orderGenerator($redis, $batchSize) {while (true) {$orders = getOrdersFromRedis($redis, $batchSize);if (empty($orders)) {break;}foreach ($orders as $order) {yield $order;}// 删除已经处理的数据$redis->ltrim('orders_cache', $batchSize, -1);}
}

4. 分批导出到 Excel

使用 PhpSpreadsheet 分批写入数据到 Excel 文件中。

use PhpOffice\PhpSpreadsheet\Spreadsheet;
use PhpOffice\PhpSpreadsheet\Writer\Xlsx;function exportToExcel($filename, $dataGenerator) {$spreadsheet = new Spreadsheet();$sheet = $spreadsheet->getActiveSheet();$row = 1;foreach ($dataGenerator as $dataRow) {$col = 1;foreach ($dataRow as $value) {$sheet->setCellValueByColumnAndRow($col, $row, $value);$col++;}$row++;}$writer = new Xlsx($spreadsheet);$writer->save($filename);
}

5. 综合实现

$pdo = new PDO("mysql:host=localhost;dbname=test", "user", "pass");
$redis = new Redis();
$redis->connect('127.0.0.1', 6379);$batchSize = 10000;
$cacheKey = "orders_cache";
$filename = "export.xlsx";// 假设要筛选最近一个月的订单
$conditions = "order_date >= DATE_SUB(NOW(), INTERVAL 1 MONTH)";// 清空 Redis 缓存
$redis->del($cacheKey);$offset = 0;
while ($orders = fetchOrders($pdo, $batchSize, $offset, $conditions)) {// 获取关联数据$customerIds = array_column($orders, 'customer_id');$productIds = array_column($orders, 'product_id');$customers = fetchCustomers($pdo, $customerIds);$products = fetchProducts($pdo, $productIds);// 合并数据$combinedData = combineData($orders, $customers, $products);// 缓存数据到 RediscacheOrdersInRedis($redis, $combinedData, $batchSize);$offset += $batchSize;
}// 使用 `yield` 生成器逐条获取数据并导出
$dataGenerator = orderGenerator($redis, $batchSize);
exportToExcel($filename, $dataGenerator);echo "Data export completed.";

优化点

  1. 分步查询:避免直接进行多表 JOIN,减少数据库锁表风险。

  2. Redis 缓存:中间结果缓存到 Redis,减少重复的数据库查询,提高效率。

  3. yield 生成器:逐条处理数据,避免一次性加载大量数据到内存中,优化内存使用。

  4. 分批导出:通过 PhpSpreadsheet 分批写入 Excel,控制内存消耗。

这样可以有效避免大规模联表查询带来的锁表问题,同时保持数据处理的效率和内存的合理使用。

 

这篇关于千万级别的数据导出Redis、php的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1094644

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav