ReAir 是一套易於使用的工具,用於在 Hive 資料倉儲之間複製表格和分割區。這些工具的目標使用者是已經熟悉操作基於 Hadoop 和 Hive 的資料倉儲的開發人員。
ReAir 中的複製功能對於以下使用案例非常有用
在遷移 Hive 資料倉儲時,ReAir 可用於將現有資料複製到新的資料倉儲。由於 ReAir 會複製資料和中繼資料,因此資料集在複製完成後即可查詢。
雖然許多組織最初都使用單一 Hive 資料倉儲,但它們通常希望在生產和臨時工作負載之間有更好的隔離。兩個隔離的 Hive 資料倉儲可以很好地滿足這個需求,而有了兩個資料倉儲,就需要複製不斷發展的資料集。ReAir 可用於將資料從一個資料倉儲複製到另一個資料倉儲,並在發生更新時以增量方式傳播更新。
最後,ReAir 可用於將資料集複製到熱備用資料倉儲,以便在災難復原情況下快速故障轉移。
為了適應這些使用案例,ReAir 包括批次和增量複製工具。批次複製會執行一次性複製表格清單。增量複製是一個長時間運行的程序,會在來源資料倉儲上建立或變更物件時複製物件。