Taiwan Symposium on Cloud and Services Computing (TWSC2) 最佳論文

Authors:  鄭煌穆, 莊偉赳, 魏連興, and 蕭宏章

Publication: Taiwan Symposium on Cloud and Services Computing (TWSC2), 2022.

Paper title: Performance Pitfalls in Apache Ozone

Abstract:

Apache Ozone做為下一世代的分散式Hadoop檔案 (或物件) 儲存系統,其內部高度倚賴了RocksDB儲存元件。RocksDB乃Facebook基於Google開發的LevelDB修改而來的嵌入式 (embedded) key-value store,是當今一個被普遍應用於各種資料庫的儲存引擎之一。本研究旨在探討RocksDB是否適合被廣泛應用於Ozone的內部核心相異功能的儲存體?若不適合,則是否存在更合適於Ozone的儲存元件,例如傳統關聯式資料庫所使用的儲存引擎MySQL InnoDB。本研究採用業界廣泛使用的TPC-DS評測程式,透過Spark存取Ozone,使獲取Ozone內部存取RocksDB資料的讀寫行為。並且,我們進一步藉由Yahoo Cloud Serving Benchmark去外插模擬大數據場景下Ozone的使用情境使觀測其效能表現。我們發現Ozone裡並非所有的元件皆一體適用RocksDB,特別是Ozone當中部分元件偏重資料讀取,此時使用InnoDB反而有更佳的效能表現;相較,那些相對偏重寫入的操作的模組基於RocksDB者會明顯優於基於InnoDB。