HBase备份与还原的最佳做法
制定恢复策略并对其进行测试。
在依赖生产环境的备份和还原策略之前,请确定必须如何执行备份,更重要的是要确定必须如何执行还原。测试计划以确保它是可行的。至少,从不同群集或服务器上的生产群集存储备份数据。要进一步保护数据,请使用位于不同物理位置的备份位置。
如果由于计算机系统问题导致主生产群集上的数据丢失不可恢复,则可以从同一站点的其他群集或服务器还原数据。但是,破坏整个站点的灾难使本地存储的备份变得毫无用处。考虑存储备份数据和必要资源(计算能力和操作员专业技能),以便在远离生产站点的站点上还原数据。如果在整个主要站点(fire,earthquake等)发生灾难的情况下,远程备份站点可能非常有价值。
首先保护完整备份映像
作为基准,您必须至少完成一次HBase数据的完整备份,然后才能依赖增量备份。完整备份应存储在源群集之外。要确保完整的数据集恢复,您必须运行恢复实用程序,并提供恢复基准完全备份的选项。完整备份是数据集的基础。在还原操作期间,增量备份数据应用于完整备份之上,以使您返回上次执行备份的时间点。
定义和使用作为整个数据集的逻辑子集的表组和备份集
您可以将表分组到称为备份集的对象中。当您拥有一组您希望重复备份或还原的特定表组时,备份集可以节省时间。
创建备份集时,可以键入要包括在组中的表名。备份集不仅包括相关表组,还保留HBase备份元数据。之后,您可以调用备份集名称来指示哪些表适用于命令执行,而不是单独输入所有表名。
记录备份和还原策略,最好记录有关每个备份的信息
记录整个过程,以便知识库可以在员工离职后转移给新的管理员。作为额外的安全预防措施,还要记录每个备份的数据的日历日期、时间以及其他相关详细信息。在源群集发生故障或主站点灾难的情况下,此元数据可能有助于查找特定数据集。维护所有文档的重复副本:一个副本位于生产集群站点,另一个副本位于备份位置,或者任何管理员可以从生产集群远程访问的地方。