查看“WikiEdge:ArXiv-2409.02852v1/background”的源代码
←
WikiEdge:ArXiv-2409.02852v1/background
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2409.02852v1/background|action=edit}} 编辑]</div> 这篇文献的背景主要集中在以下几个方面: # '''大数据的计算负担''': #* 大数据的分析对计算资源的需求极高,即使是对数据集中唯一项的计数这样看似简单的查询也如此。 #* [[草图算法]]通过减少计算负担来解决这一问题,但它们并没有完全消除计算需求。 # '''草图算法的实际应用''': #* 草图算法特别适用于需要处理大量事件的技术公司,例如,用于[[报告工具]],这些工具每天处理数十亿事件。 #* 这些工具之所以实用,是因为它们利用了草图的可合并性:可以为细粒度的时间间隔(例如,每小时)生成草图,然后将每小时的草图合并为每日草图,依此类推。 # '''存储成本和数据草图的优化''': #* 尽管单个草图很小,但草图的累积存储空间对企业来说是一笔不小的开销。 #* 研究者对尽可能高效地压缩[[数据草图]]感兴趣,以减少存储需求,同时提高分析的可扩展性。 # '''草图压缩的历史和现状''': #* 历史上,草图算法的研究集中在准确性、(渐进)空间使用和更新时间等方面。 #* 近年来,研究者开始关注如何尽可能高效地压缩草图,以接近草图算法定义的底层随机过程的熵,因为熵是预期草图大小的下限。 # '''k-最小值草图(KMV)的压缩潜力''': #* [[KMV草图]]是一种通用框架,使用哈希函数对数据集中的条目进行去重,并存储最小的k个哈希函数输出。 #* 这项研究的动机是,现有的通用压缩方法在压缩KMV草图时表现不佳,因此需要一种新的压缩方法,既能保持草图的准确性,又能显著减少存储空间。
返回
WikiEdge:ArXiv-2409.02852v1/background
。
导航菜单
个人工具
创建账号
登录
命名空间
项目页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息