WikiEdge:ArXiv-2409.02852v1/background

编辑

这篇文献的背景主要集中在以下几个方面：

大数据的计算负担：
- 大数据的分析对计算资源的需求极高，即使是对数据集中唯一项的计数这样看似简单的查询也如此。
- 草图算法通过减少计算负担来解决这一问题，但它们并没有完全消除计算需求。
草图算法的实际应用：
- 草图算法特别适用于需要处理大量事件的技术公司，例如，用于报告工具，这些工具每天处理数十亿事件。
- 这些工具之所以实用，是因为它们利用了草图的可合并性：可以为细粒度的时间间隔（例如，每小时）生成草图，然后将每小时的草图合并为每日草图，依此类推。
存储成本和数据草图的优化：
- 尽管单个草图很小，但草图的累积存储空间对企业来说是一笔不小的开销。
- 研究者对尽可能高效地压缩数据草图感兴趣，以减少存储需求，同时提高分析的可扩展性。
草图压缩的历史和现状：
- 历史上，草图算法的研究集中在准确性、（渐进）空间使用和更新时间等方面。
- 近年来，研究者开始关注如何尽可能高效地压缩草图，以接近草图算法定义的底层随机过程的熵，因为熵是预期草图大小的下限。
k-最小值草图（KMV）的压缩潜力：
- KMV草图是一种通用框架，使用哈希函数对数据集中的条目进行去重，并存储最小的k个哈希函数输出。
- 这项研究的动机是，现有的通用压缩方法在压缩KMV草图时表现不佳，因此需要一种新的压缩方法，既能保持草图的准确性，又能显著减少存储空间。

WikiEdge:ArXiv-2409.02852v1/background

导航菜单

搜索