在云化场景下,还有一个主要场景对客户的体验非常重要 。我们知道客户的业务要迁移上云,需要对数据进行大规模的迁移(华为云提供了数据复制服务DRS工具支持各类数据迁移场景),数据迁移比较高效的方式为:
1)逻辑导出源端数据
2)在目标端建表(注意,表不含二级索引)
3)将源端导出的数据插入到目标端
4)对目标端的表建立二级索引
如果涉及动态数据同步,相关步骤会更复杂一些,由于和该主题无关,这里不展开 。以上步骤中,需要重点注意的是步骤2和4,在目标端创建表的时候先不创建二级索引 。这个优化对性能影响很大,尤其是一个表有很多二级索引的场景 。我们知道Btree索引的插入如果是有序的,对插入性能和结果的空间利用率是最好的,因为Btree索引的分裂会在插入区域的尾部产生,同时由于分裂算法的优化,分裂产生的页面填充率会比较高;相反地,如果是随机插入,尤其是并发地随机插入,很容易导致Btree索引在不同的节点进行分裂,并且分裂后的页面填充率都处于一个半满的状态,导致Btree最终的一个膨胀 。
有了这个背景之后,我们就容易理解上面的问题,插入表数据的时候,我们屏蔽了二级索引,等所有数据都准备好了,再采用批量建立索引的方式创建二级索引,这对于二级索引创建效率是最高的 。如果不这么做,每插入一条记录,就要去插入相应的二级索引,那么二级索引就是一个无序的随机插入,并发起来性能会变差很多 。
虽然在数据同步准备好后,批量创建二级索引是一个有效的方案,但是如果数据量很大,这么创建二级索引还是非常耗时,导致客户在数据迁移完之后需要等待很长时间才能开展业务,这个等待周期可能是小时甚至天级别的 。虽然可以考虑表级别的并发创建索引,但是这个方法也有明显的缺点:应用场景有限,要求有多表;以及表和表之间的并发其实不是一个最有效的并发形式,相互影响比较大 。
GaussDB(for MySQL)如何快速创建索引?综上所述,在创建索引这个点上存在两个性能瓶颈点:一个是用户迁移数据之后的批量索引创建;第二个是用户临时需要添加一个二级索引 。无论哪个点,我们都需要更快的建立好索引,提升用户的使用体验 。
华为云GaussDB(for MySQL)引入了并行创建索引的技术,它改进了社区版MySQL创建索引只用单线程的问题,以此提高创建索引的效率,并一起解决了前述两个痛点 。前面提到的社区版创建索引逻辑是单线程的,首先存在资源利用率不够饱满的问题;其次创建索引过程是CPU和IO开销交替进行的过程,在做一个操作的时候,即使不是资源竞争的操作也只有等待 。多线程创建索引可以充分利用CPU和IO资源,同时有的线程在做CPU计算时,别的线程可以并发的做IO操作 。
GaussDB(for MySQL)使用的并行创建索引,是一个全链路的并行技术 。前面提到,创建索引包含了若干个阶段,我们的并行创建算法,对这里的每个阶段都做并行处理,从读取数据、排序、到创建索引,都是并行操作,每一步都由指定的N个线程并发处理 。它的逻辑如下图所示:
文章插图
GaussDB(for MySQL)尤其对数据的归并排序做了多种优化,使得我们常规的归并排序能够充分的并行,充分利用CPU、内存和IO的资源 。在并行创建索引之后的合并步骤,也使用了一套简化的算法,正确处理各种索引结构的场景 。
支持的索引和场景GaussDB(for MySQL)的并行创建索引功能,目前支持的索引为Btree二级索引 。对于virtual index二级索引,将会在不久的将来提供全面的支持,而MySQL的spatial index和fulltext index不在该并行创建索引覆盖范围内 。
以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!
「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助:- 吃橙子会引起上火吗 能增加机体抵抗力
- 北京五中哪个区 北京五中怎么样?
- 健身 让你强体加瘦身
- 加班族 健身有好处
- 远程查看别人微信聊天记录 怎么把对方微信盗了
- 我的婆婆太迷信了 我应该怎么办
- 遇见这样的婆婆我该怎么办呢?
- 第一次谈恋爱该怎么谈?5个方面必须了解!
- 内向的人怎么谈恋爱?学会四个技巧
- 男朋友异性缘太好 没有安全感怎么办