WikiEdge:ArXiv速递/2025-04-16

来自WikiEdge
Carole留言 | 贡献2025年4月17日 (四) 07:48的版本 (Created page by Carole)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索

摘要

  • 原文标题:When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
  • 中文标题:何时运行应用程序基准测试?——针对流处理应用的云性能变异性研究
  • 发布日期:2025-04-16 07:22:44+00:00
  • 作者:Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
  • 分类:cs.SE, cs.DC, cs.PF
  • 原文链接http://arxiv.org/abs/2504.11826v1

中文摘要:性能基准测试是软件工程中的常见实践,尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势,但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证研究量化了云性能波动对基准测试结果的影响,重点关注流处理应用这一具有代表性的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中,我们重复执行了Dynatrace研发中使用的应用基准测试,从而能够评估性能波动的多个维度(特别是时间效应相关因素)。通过约591小时的实验,在AWS上部署789个Kubernetes集群并执行2366次基准测试,这可能是同类研究中规模最大且唯一从端到端(即应用基准测试视角)探讨性能的研究。我们的研究证实性能波动确实存在,但其程度低于通常假设(变异系数<3.7%)。与相关研究不同,我们发现性能确实呈现日周期周周期模式,尽管波动幅度较小(≤2.5%)。跨多次测试重复使用基准测试基础设施仅会导致结果准确度轻微下降(≤2.5个百分点)。这些关键发现在不同云区域和采用不同处理器架构的机器类型中均保持一致。我们得出结论:对于关注检测显著性能差异(例如>5%)的工程师和研究人员而言...