WikiEdge:ArXiv-2409.02852v1/background

編輯

這篇文獻的背景主要集中在以下幾個方面：

大數據的計算負擔：
- 大數據的分析對計算資源的需求極高，即使是對數據集中唯一項的計數這樣看似簡單的查詢也如此。
- 草圖算法通過減少計算負擔來解決這一問題，但它們並沒有完全消除計算需求。
草圖算法的實際應用：
- 草圖算法特別適用於需要處理大量事件的技術公司，例如，用於報告工具，這些工具每天處理數十億事件。
- 這些工具之所以實用，是因為它們利用了草圖的可合併性：可以為細粒度的時間間隔（例如，每小時）生成草圖，然後將每小時的草圖合併為每日草圖，依此類推。
存儲成本和數據草圖的優化：
- 儘管單個草圖很小，但草圖的累積存儲空間對企業來說是一筆不小的開銷。
- 研究者對儘可能高效地壓縮數據草圖感興趣，以減少存儲需求，同時提高分析的可擴展性。
草圖壓縮的歷史和現狀：
- 歷史上，草圖算法的研究集中在準確性、（漸進）空間使用和更新時間等方面。
- 近年來，研究者開始關注如何儘可能高效地壓縮草圖，以接近草圖算法定義的底層隨機過程的熵，因為熵是預期草圖大小的下限。
k-最小值草圖（KMV）的壓縮潛力：
- KMV草圖是一種通用框架，使用哈希函數對數據集中的條目進行去重，並存儲最小的k個哈希函數輸出。
- 這項研究的動機是，現有的通用壓縮方法在壓縮KMV草圖時表現不佳，因此需要一種新的壓縮方法，既能保持草圖的準確性，又能顯著減少存儲空間。

WikiEdge:ArXiv-2409.02852v1/background

導覽菜單

搜尋