淘宝iDataForum归来

2024-01-04 10:18
文章标签 淘宝 归来 idataforum

本文主要是介绍淘宝iDataForum归来,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

今天参加了淘宝的iDataForum,收获不少。详细的PPT过段时间能发在 官方网站上。

Topic 1:淘宝架构的变迁

这个topic主要讲淘宝这几年数据库面临的一些问题以及问题的解决。下面的数据还是老一些的数据。


  • 淘宝现在有10亿种商品。
  • 小文件和图片加起来有1000T
  • CDN流量为138G/s
  • 13亿/天(个人算了下,忙时3w~4w/s)的PV
  • 读写比例大致为10:1
  • 单个核心DB(Oracle+IBM小机+EMC高端存储),处理数的SQL为4w/s
  • 用户中心的api请求数为60亿次/天
  • search index,每秒增量build一次,每天全量build一次。build时间很快,因为数据分散到很多机器。
  • 淘宝现在的核心DB数量小于10个,mysql库有500+个。这个数据很有意义,可以看到在这种业务量级下的服务器数量。还不包括应用服务器和CDN服务器。


  • 使用Oracle Dataguard进行数据备份
  • 淘宝原先是基于lamp构建,后改为java/Oracle等,现在又考虑把一些非核心的使用mysql进行替代。
  • Mysql和Oracle的关系是考虑读写分离,Oracle上主要负责数据存储和持久化,Mysql为读取库(Master-Slave方式)。数据同步时延小于200ms
  • 淘宝对数据进行了垂直拆分的方式,把数据划分为“用户中心”、“商品中心”、“交易中心”等。这种中心的方式,使得各个中心能够隔离,同时可以针对各部分进行优化。
  • 中心的拆分带来的问题是完整数据可能需要从多个中心进行,淘宝使用了HFS(类似RPC方式,注重高效)负责各中心之间数据的交互。
  • 淘宝正在研发自主的数据库OceanBase。一个很抢眼的特性是,能够把随机IO合并为顺序IO。

Topic 2:数据库性能模型与容量规划

提出了以响应时间为核心的规划思想,有点意思。hellodba的博主,之前看过他的blog,讲的也是这方面的,这次更透彻了。
  • 数据库的时间模型,详见ppt吧。
  • 影响IOPS的因素:磁盘转速,寻道时延
  • 影响吞吐量的因素:磁盘转速,接口类型,内外部接口传输速率
  • Oracle的redolog:连续的随机IO。一个很贴切的说法。小于5ms是比较合理的。
  • Oracle的datalog:小于10ms是合理的。
  • 对Oracle数据库而言,CPU和IO时间外的其他等待事件应该小于5%

Topic 3:NoSQL数据库研发之路


对应NoSQL个人了解不是太多,讲的又是ttserver这种具体的应用。没记下什么东西。感觉一直在说的一个问题是,NoSQL产品很多,各自特性不同,需要根据自己的业务特点来选取适合自己的产品。


Topic 4:淘宝分布式数据层的前世今生

一个很好的东西,解决了Oralce数据到MySQL数据的复制问题。

  • 简称tddl
  • 重写的JDBC部分,加入的数据复制、数据拆分的功能
  • 接管了上层应用的SQL请求,由他负责进行和不同数据源交互
  • 实现了基于自定义规则的数据拆分
  • 使用了消息通知的异步方式进行数据复制(写入或更新成功后发送消息),由专门的服务器完成后续复制

这篇关于淘宝iDataForum归来的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/568993

相关文章

【NodeJS】如何安装淘宝cnpm

工具官网 Node.js淘宝 NPM 镜像 安装cnpm npm install -g cnpm --registry=https://registry.npm.taobao.org 输入cnpm -v查看是否正常(前提是你已经设置好了环境变量) cnpm -v 如果想给npm添加淘宝镜像,请参考: 【NodeJS】修改npm的registry为淘宝镜像(npm.taobao.o

【python 爬虫】python淘宝爬虫实战(selenum+phontomjs)

1、需求目标 : 进去淘宝页面,搜索耐克关键词,抓取 商品的标题,链接,价格,城市,旺旺号,付款人数,进去第二层,抓取商品的销售量,款号等。 2、结果展示 3、源代码 # encoding: utf-8import sysreload(sys)sys.setdefaultencoding('utf-8')import timeimport pandas as pd

企业级大数据平台建设参考 | 淘宝滴滴美团360快手京东

点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 本文结合小编自己的经验并且参考了淘宝&滴滴&美团&360&快手等各个大厂大数据平台建设的思路。在尊重事实的基础上重新组织了语言和内容,旨在给读者揭开一个完善的大数据平台的组成和发展过程。 大数据平台是为了计算,现今社会所产生的越来越大的数据量,以存储、运算、展现作为目的的平台。大数据技术是指从各种各样类型的数据中,快速获得有价值信息

淘宝 API 接口调用失败的常见原因及解决方法

在使用淘宝 API 接口的过程中,可能会遇到接口调用失败的情况。以下是一些常见的原因及相应的解决方法。 一、常见原因 (一)认证问题 未正确注册和认证开发者账号:如果没有在开放平台上​​完成注册和认证流程​​,将无法获得合法的 API 调用权限。API 密钥错误:App Key 和 App Secret 是调用 API 的重要凭证,如果输入错误或被泄露,可能导致调用失败。 (二)参数问题

如何使用电商API接口?(淘宝|京东商品详情数据接口)

一、了解电商API接口: 如今,在电商市场中,电商API接口的广泛应用极大地提高了电商行业的工作效率,使得商家能够灵活集成多种服务,高效优化业务流程。 当前,电商平台中的多种业务都可以通过使用API接口来做优化,如商品数据获取、用户数据、支付信息、物流跟踪等等。 二、选择并使用API接口: 当电商品牌方在选择API接口时,首先要做的是查阅电商API接口的相关文档,了解API接口的功能及

淘宝订单 API 接口:获取淘宝平台数据的 api 接口(电商 ERP 订单对接方案)

taobao.seller_order_list 获取卖家订单列表 taobao.custom 自定义淘宝开放平台 API 公共参数 请求地址: 登录 - 凡邦跨境电商平台接口提供商 数据采集公司 数据接口定制服务 企业级数据服务商 seller_order_list 参数说明 请求参数 请求参数:page=&tabCode=&dateBegin=&dateEnd=&buyerN

【淘宝采集项目经验分享】商品评论采集 |商品详情采集 |关键词搜索商品信息采集

商品评论采集  1、输入商品ID 2、筛选要抓取评论类型 3、填写要抓取的页数 4、立刻提交-启动测试 5、等爬虫结束后就可以到“爬取结果”里面下载数据 商品详情采集  1、输入商品ID 2、立刻提交-启动爬虫 3、等爬虫结束后就可以到“爬取结果”里面下载数据 taobao.item_get 公共参数 名称类型必须描述keyString是调用key(必须

【经验分享】淘宝商量评论采集系统功能分享|淘宝商品详情采集分享|关键词采集分享

商品评论采集  1、输入商品ID 2、筛选要抓取评论类型 3、填写要抓取的页数 4、立刻提交-启动测试 5、返回数据 响应参数 Version: Date: 名称类型必须示例值描述 rate_content String0衣服面料很好 穿起来很舒服 衣服挺合适的!评论内容 rate_date Date02019-03-16 12:10:24评论日期 pics MIX0["//img

如何快速采集淘宝商品数据?

无论是谁,如果单凭人工的方式去收集淘宝、天猫等平台的商品数据信息,工作量是巨大的,如果借助有采集软件的第三方公司操作,则可实现对大数据的轻松掌握,但是外包给第三方公司需要支付一定的费用,包含技术费、人工成本费、服务费等,各种费用算下来每条链接的采集费用可能需要高达6分钱,有些甚至更高,一年下来采集的总费用真的不能小觑。但是数据采集技术真的那么难吗?只有第三方公司可以采集吗? 淘宝/天猫获

淘宝架构师岑文初:技术发展背后的那个人~~

身人还是很平和的,最后我做好了所有的分析和架构设计,给阿里云留了一个后续统一集团开放的方案,然后带着没完成的开放的理想去了淘宝。 2010年: 空降淘宝,虽然新老板对我能力比较认可,但是淘宝的开放平台已经有了一个10个左右的小团队了,如何融入是最迫切的。我缺乏的是业务,了解的是平台,能力在于技术,于是天天帮助团队同学打杂,解决问题,慢慢的也用能力证明自己。一直处于一个团队攻坚和打杂