文章插图
以下是淘宝云梯分布式计算平台的整体架构 , 由数据分析网整理自网络资料 , 供大家学习参考 。
一、系统架构
1、系统整体架构
数据流向从上到下 , 从各数据源、Gateway、云梯、到各应用场景 。
2、淘宝云计算介绍
主要由数据源、数据平台、数据集群三部分构成
二、数据同步方案
1、数据同步方案——概览
2、数据同步方案—— 实时同步VS非实时同步
3、数据同步方案—— TimeTunnel2 介绍
TimeTunnel是一个实时数据传输平台 , TimeTunnel的主要功能就是实时完成海量数据的交换 , 因此TimeTunnel的业务逻辑主 要也就有两个:一个是发布数据 , 将数据发送到TimeTunnel;一个是订阅数据 , 从TimeTunnel读取自己关心的数据 。
TimeTunnel作为一个实时数据传输平台具有以下特点:
高效性:单点1k数据可以到4万TPS高可靠性:M-S模式时保证数据不丢失
高可用性:单点故障不影响整个集群服务
顺序性:当没有故障发生时 , 保证所有传输都
是顺序的 , 或者说一次连接内的传输是顺序的 。
4、数据同步方案—— Dbsync 介绍
dbsync是一个用于同步服务库数据到HDFS的产品 , 通过分析数据库服务器的log文件来提取相应的数据库动作 , 进而达到数据库到HADOOP的数据同步 , 供相关部门提取增量数据 。
Dbsync实时同步性能
记录大小 速度
2K 4M/s
9K 10M/s
应用场景
数据量 800G
00:10分备库打开:
非实时同步完成时间0:55
实时同步完成时间0:25
5、数据同步方案—— DataX 介绍
DataX是一个在异构的数据容器之间交换数据的工具 。用于在任意的数据处理系统(RDBMS/NoSql/FS)之间交换数据 。
Framework+plugin , Framework处理了高速数据交换的大部分问题 , 插件提供对数据处理系统的访问 。
运行模式 :stand-alone / on hadoop
Webui + cui 基于元数据的高效配置,例子:表A sharding为32个库 , 1024张表 , 配置时间<1 min
DataX部分性能数据:
三、调度系统
1、调度系统——生产率银弹
2、调度系统——模块/子系统
3、调度系统——任务触发方式
Flow control/Data Trigger
Time Trigger
4、调度系统——调度方式
5、调度系统——什么是Gateway?
Gateway:参与天网调度的资源
? 功能:
– 数据同步(dataX, DBSync,TimeTunnel2…)
– 数据上传/下载(hadoop fs –put/get/getmerge)
– 日志收集
– Hive sql语句提交运行
– MapReduce程序提交运行
– 集群间数据同步(hadoop distcp)
6、调度系统—— Gateway规模及规划
用于生产的Gateway约30台 , 由天网调度统一进行任务
分发 , 并行控制 。
数据同步(dataX, DBSync,TimeTunnel2…)
数据上传/下载(hadoop fs –put/get/getmerge)
日志收集
Hive sql语句提交运行
MapReduce程序提交运行
集群间数据同步(hadoop distcp)
7、调度系统——gateway standardization
8、调度系统——Dynamic LB实现
9、调度系统——优先级策略(实现)
10、调度系统——优先级策略(意义)
11、调度系统——监控全景
四、元数据应用
面对上面的问题 , 靠经验丰富的架构师?还是靠智能的分析系统?
1、挖掘元数据金矿
2、基于元数据的开发平台
以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!
「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助:- 大话西游3藏宝阁交易平台手续费高吗?
- 如何打印报关单? 报关单查询平台流程
- h5平台搭建步骤 h5建站系统源码
- 用于家人生病经济困难的筹款平台有哪些? 大病筹款哪个平台好
- 恒指期货怎么开户,怎么区分恒指期货平台正不正规? 开户期货恒指
- 国内知名直播平台有哪些 国内最火的直播平台
- 如何投诉网络贷款公司? 网贷投诉找哪个部门
- 什么平台可以聊天赚钱 聊天赚钱软件哪个赚钱多又安全
- 聊天赚钱平台哪个最好 安全的聊天赚钱软件哪个赚钱多
- 期货公司分类评级排名 全球期货交易平台排名