WikiEdge:ArXiv速递/2025-04-16

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能变异性研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证研究量化了云性能波动对基准测试结果的影响，重点关注流处理应用这一具有代表性的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而能够评估性能波动的多个维度（特别是时间效应相关因素）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，尽管波动幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会导致结果准确度轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和采用不同处理器架构的机器类型中均保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：Dependency Dilemmas: A Comparative Study of Independent and Dependent Artifacts in Maven Central Ecosystem
中文标题：依赖困境：Maven中央生态系统中独立与依赖构件的对比研究
发布日期：2025-04-16 17:15:58+00:00
作者：Mehedi Hasan Shanto, Muhammad Asaduzzaman, Manishankar Mondal, Shaiful Chowdhury
分类：cs.SE
原文链接：http://arxiv.org/abs/2504.12261v1

中文摘要：Maven Central生态系统构成了Java依赖管理的核心，承载着在采用率、安全性和生态系统角色上差异显著的构件。构件复用是软件开发的基础，而Maven Central等生态系统促进了这一过程。然而，先前研究主要分析了具有大量依赖的热门构件，对无传入依赖的独立构件缺乏探索。本研究分析了658,078个构件（其中635,003个至少有一个发布版本），发现93,101个构件（15.4%）为独立构件（入度=0），其余归类为依赖构件。通过PageRank和出度中心性分析发现，独立构件对生态系统至关重要。针对18项指标的进一步分析揭示了独立构件相较于依赖构件的优势与可比性：流行度相当（25.58 vs. 7.30）、漏洞更少（60个CVE vs. 179个CVE）且无传播漏洞。这些结果表明，独立构件显著影响生态系统，为开发者提供了安全、自包含的传统依赖替代方案。研究发现独立构件可能是依赖关系的有利选择，但存在可维护性问题。因此开发者应审慎引入独立构件，而构件维护者应优先关注此类构件，以降低传递性漏洞传播风险并提升软件可持续性。

摘要

原文标题：Towards Realistic Low-Light Image Enhancement via ISP Driven Data Modeling
中文标题：基于图像信号处理驱动的数据建模实现真实低光照图像增强
发布日期：2025-04-16 15:53:53+00:00
作者：Zhihua Wang, Yu Long, Qinghua Lin, Kai Zhang, Yazhu Zhang, Yuming Fang, Li Liu, Xiaochun Cao
分类：cs.CV, cs.MM
原文链接：http://arxiv.org/abs/2504.12204v1

中文摘要：深度神经网络(DNNs)近期已成为低光照图像增强(LLIE)的主流方法。然而尽管取得显著进展，在实际应用中其输出仍可能呈现噪声放大、白平衡偏差或增强失真等问题。关键挑战在于缺乏能捕捉低光照条件与成像流程复杂性的多样化大规模训练数据。本文提出一种新颖的图像信号处理(ISP)驱动数据合成流程，通过生成无限量配对训练数据解决这些难题。具体而言，我们的流程从易采集的高质量正常光照图像出发，先通过逆向ISP将其还原为RAW格式，随后直接在RAW域合成低光照退化。生成的数据继而经过包含白平衡调整、色彩空间转换、色调映射和伽马校正等ISP处理阶段，并在各阶段引入可控变异。这有效扩展了退化空间并增强训练数据多样性，使生成数据能涵盖广泛退化类型及ISP流程固有复杂性。为验证合成流程的有效性，我们采用仅包含卷积层、组归一化、GeLU激活和卷积注意力模块(CBAM)的基础UNet模型进行大量实验。跨多数据集的测试表明，基于本数据合成流程训练的UNet模型能生成高保真、视觉愉悦的增强结果，在定量评估与定性评估上均超越现有最优方法。

摘要

原文标题：Advancing quantum simulations of nuclear shell model with noise-resilient protocols
中文标题：基于噪声鲁棒协议推进核壳模型的量子模拟
发布日期：2025-04-16 01:13:39+00:00
作者：Nifeeya Singh, Pooja Siwach, P. Arumugam
分类：quant-ph, nucl-th
原文链接：http://arxiv.org/abs/2504.11689v1

中文摘要：摘要：解决核多体问题的部分计算限制可通过量子计算机克服。核壳层模型计算能深入揭示原子核性质，但随着希尔伯特空间随粒子数呈指数增长，这类计算对资源需求极高。当前正开发量子算法以应对这些挑战并推进此类计算。为构建核壳层模型的量子电路，我们利用噪声中等规模量子（NISQ）设备的特性，致力于通过优化资源需求（特别是量子比特和量子门数量）并采用噪声抑制技术来降低噪声影响。我们通过以下设计实现噪声鲁棒性：基于Givens旋转为变分量子本征求解器（VQE）设计优化拟设；结合qubit-ADAPT-VQE与变分量子紧缩（VQD）计算基态和激发态，并融入零噪声外推抑制技术；通过格雷码编码将基态映射到量子比特，并推广费米子算符变换以高效表示多体态，从而显著减少量子比特需求。采用这些抗噪声方案后，我们以更高精度获得了38Ar和6Li的基态与激发态能级，并分别呈现了无噪声模拟、含噪声环境及噪声抑制后的结果。研究对比了Jordan-Wigner编码与格雷码编码在VQE、qubit-ADAPT-VQE和VQD中的表现。本工作彰显了抗噪声方案在充分发挥NISQ设备潜力以扩展核壳层模型计算方面的价值。

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）考察性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：Dependency Dilemmas: A Comparative Study of Independent and Dependent Artifacts in Maven Central Ecosystem
中文标题：依赖困境：Maven Central生态系统中独立与依赖构件的对比研究
发布日期：2025-04-16 17:15:58+00:00
作者：Mehedi Hasan Shanto, Muhammad Asaduzzaman, Manishankar Mondal, Shaiful Chowdhury
分类：cs.SE
原文链接：http://arxiv.org/abs/2504.12261v1

中文摘要：Maven Central生态系统构成了Java依赖管理的核心，承载着在采用率、安全性和生态系统角色上差异显著的构件。构件重用是软件开发的基础，而Maven Central等生态系统促进了这一过程。然而，先前研究主要分析了具有大量依赖的热门构件，对无传入依赖的独立构件缺乏探索。本研究分析了658,078个构件（其中635,003个至少有一个发布版本），发现93,101个构件（15.4%）为独立构件（入度=0），其余归类为依赖构件。通过PageRank和出度中心性分析发现，独立构件对生态系统至关重要。针对18项指标的进一步分析揭示了独立构件相较于依赖构件的优势与可比性：流行度相当（25.58 vs. 7.30）、漏洞更少（60个CVE vs. 179个CVE）且无传播性漏洞。结果表明，独立构件显著影响生态系统，为开发者提供了安全、自包含的传统依赖替代方案。这些发现表明独立构件可能是更优的依赖选择，但也存在可维护性问题。因此开发者应审慎引入独立构件，而构件维护者应优先关注此类构件，以降低传递性漏洞传播风险并提升软件可持续性。

摘要

原文标题：Advancing quantum simulations of nuclear shell model with noise-resilient protocols
中文标题：基于噪声弹性协议推进核壳模型的量子模拟
发布日期：2025-04-16 01:13:39+00:00
作者：Nifeeya Singh, Pooja Siwach, P. Arumugam
分类：quant-ph, nucl-th
原文链接：http://arxiv.org/abs/2504.11689v1

中文摘要：摘要：通过利用量子计算机，可以克服解决核多体问题中的部分计算限制。核壳模型计算能更深入揭示原子核性质，但随着希尔伯特空间随粒子数呈指数增长，这类计算对资源需求极高。目前正通过开发量子算法来突破这些限制并推进此类计算。为构建核壳模型的量子电路，我们充分利用噪声中等规模量子（NISQ）设备的特性，致力于通过优化资源需求（特别是量子比特和量子门数量）并采用噪声缓解技术来降低噪声影响。我们基于吉文斯旋转为变分量子本征求解器（VQE）设计优化拟设，结合量子比特自适应VQE（qubit-ADAPT-VQE）与变分量子紧缩（VQD）方法计算基态和激发态，同时引入零噪声外推缓解技术，从而实现噪声鲁棒性。此外，通过格雷码编码将基态映射到量子比特，并推广费米子算符变换以高效表示多体态，显著减少了量子比特需求。采用这些抗噪声方案后，我们以更高精度获得了³⁸Ar和⁶Li的基态与激发态能级，并分别呈现了无噪声模拟、含噪声条件及噪声缓解后的结果。研究对比了采用VQE、qubit-ADAPT-VQE和VQD方法时乔丹-维格纳编码与格雷码编码的效果。本工作凸显了抗噪声方案在充分发挥NISQ设备潜力、扩展核壳模型计算规模方面的巨大潜力。

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动性研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式系统和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试间的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注作为数据密集型关键性能系统代表的流处理应用。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应相关）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，尽管波动幅度较小（≤2.5%）。跨多次测试复用基准设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和采用不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：Dependency Dilemmas: A Comparative Study of Independent and Dependent Artifacts in Maven Central Ecosystem
中文标题：依赖困境：Maven Central生态系统中独立与依赖构件的对比研究
发布日期：2025-04-16 17:15:58+00:00
作者：Mehedi Hasan Shanto, Muhammad Asaduzzaman, Manishankar Mondal, Shaiful Chowdhury
分类：cs.SE
原文链接：http://arxiv.org/abs/2504.12261v1

中文摘要：Maven Central 生态系统构成了Java 依赖管理的核心，承载着在采用率、安全性和生态系统角色上差异显著的构件。构件复用是软件开发的基础，而Maven Central等生态系统促进了这一过程。然而，先前研究主要分析了具有大量依赖的热门构件，忽略了那些没有传入依赖的独立构件。本研究分析了658,078个构件（其中635,003个至少有一个发布版本），发现93,101个构件（15.4%）为独立构件（入度=0），其余归类为依赖构件。通过PageRank和出度中心性分析，我们发现独立构件对生态系统至关重要。针对18项指标的进一步分析揭示了独立构件相较于依赖构件的多项优势与可比性：相当的流行度（25.58 vs. 7.30）、更少漏洞（60个CVE vs. 179个CVE）以及零传播漏洞。这些结果表明，独立构件显著影响生态系统，为开发者提供了安全、自包含的传统依赖替代方案。研究发现表明独立构件可能是依赖关系的有利选择，但存在可维护性问题。因此开发者应审慎引入独立构件，构件维护者应优先关注此类构件以降低传递性漏洞传播风险，提升软件可持续性。

摘要

原文标题：Advancing quantum simulations of nuclear shell model with noise-resilient protocols
中文标题：基于噪声鲁棒协议推进核壳模型的量子模拟
发布日期：2025-04-16 01:13:39+00:00
作者：Nifeeya Singh, Pooja Siwach, P. Arumugam
分类：quant-ph, nucl-th
原文链接：http://arxiv.org/abs/2504.11689v1

中文摘要：在解决核多体问题中的某些计算限制可以通过利用量子计算机来克服。核壳模型计算能更深入地揭示原子核的性质，但随着希尔伯特空间维度随粒子数量呈指数增长，这类计算对资源的需求极高。目前正在开发量子算法以应对这些挑战并推进此类计算。为开发适用于核壳模型的量子电路，我们利用噪声中等规模量子（NISQ）设备的特性，致力于通过相关缓解技术最小化资源需求（特别是量子比特和量子门数量）并降低噪声影响。我们通过以下方式实现噪声鲁棒性：基于Givens旋转设计优化的变分量子本征求解器（VQE）拟设；结合qubit-ADAPT-VQE与变分量子紧缩（VQD）计算基态和激发态，并采用零噪声外推缓解技术；通过格雷码编码将基态映射到量子比特，并推广费米子算符变换以高效表示多体态，从而显著减少量子比特需求。应用这些噪声鲁棒协议后，我们以更高精度获得了38Ar和6Li的基态与激发态能级，分别呈现了无噪声模拟、含噪声条件及噪声缓解后的结果，并对比了Jordan-Wigner编码与格雷码编码在VQE、qubit-ADAPT-VQE和VQD中的表现。本研究证明了噪声鲁棒协议在充分发挥NISQ设备潜力以扩展核壳模型计算规模方面的潜力。

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式系统和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期性和周周期性波动，但幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：Dependency Dilemmas: A Comparative Study of Independent and Dependent Artifacts in Maven Central Ecosystem
中文标题：依赖困境：Maven中央生态系统中独立与依赖构件的对比研究
发布日期：2025-04-16 17:15:58+00:00
作者：Mehedi Hasan Shanto, Muhammad Asaduzzaman, Manishankar Mondal, Shaiful Chowdhury
分类：cs.SE
原文链接：http://arxiv.org/abs/2504.12261v1

中文摘要：Maven Central 生态系统构成了Java 依赖管理的核心，承载着在采用率、安全性和生态角色上差异显著的构件。构件复用是软件开发的基础，而Maven Central等生态系统促进了这一过程。然而，先前研究主要分析了具有大量依赖的热门构件，对无传入依赖的独立构件缺乏探索。本研究分析了658,078个构件（其中635,003个至少有一个发布版本），发现93,101个构件（15.4%）为独立构件（入度=0），其余归类为依赖构件。通过PageRank和出度中心性分析，我们发现独立构件对生态系统至关重要。针对18项指标的进一步分析揭示了独立构件相较于依赖构件的多重优势与可比性：相当的使用热度（25.58 vs. 7.30）、更少的安全漏洞（60个CVE vs. 179个CVE）以及零传播漏洞。这些结果表明，独立构件能显著改变生态系统格局，为开发者提供安全、自包含的传统依赖替代方案。研究发现表明独立构件可能是更优的依赖选择，但也存在可维护性问题。因此开发者应审慎引入独立构件，而构件维护者应优先关注这类构件以降低传递性漏洞传播风险，提升软件可持续性。

摘要

原文标题：A viscoplasticity model with an invariant-based non-Newtonian flow rule for unidirectional thermoplastic composites
中文标题：基于不变量的非牛顿流动法则的单向热塑性复合材料粘塑性模型
发布日期：2025-04-16 13:24:56+00:00
作者：P. Hofman, D. Kovačević, F. P. van der Meer, L. J. Sluys
分类：cs.CE
原文链接：http://arxiv.org/abs/2504.12069v1

中文摘要：摘要：本文提出了一种三维细观粘塑性模型，用于模拟单向热塑性复合材料中与速率相关的塑性和蠕变行为。该本构模型是对纯聚合物各向同性有限应变粘塑性模型的横观各向同性扩展。通过采用非牛顿流动法则描述速率相关塑性和蠕变，其中材料粘度通过Eyring型关系与等效应力度量相关联。在当前公式中，通过将等效应力度量和流动法则定义为横观各向同性应力不变量的函数来实现横向各向同性。此外，Eyring型粘度函数还扩展了各向异性压力依赖性。该公式有效排除了纤维方向的塑性流动，同时考虑了聚合物基体的压力依赖性。塑性变形过程中横观各向同性平面的重新定向被纳入本构方程，从而实现了精确的大变形响应。该公式完全隐式，并对算法本构方程进行了一致线性化以导出一致切线模量。通过与碳纤维/PEEK的微观力学模型、原始各向同性粘塑性聚合物基体模型和超弹性纤维模型的比较，评估了细观本构模型的性能。首先利用微观模型通过少量应力-应变曲线确定细观模型的材料参数，结果表明细观模型在各种载荷条件下都能给出与微观模型相似的响应。最后，通过单向热塑性复合材料层板的偏轴实验验证了细观模型的有效性。

摘要

原文标题：Towards Realistic Low-Light Image Enhancement via ISP Driven Data Modeling
中文标题：基于图像信号处理驱动的数据建模实现真实低光照图像增强
发布日期：2025-04-16 15:53:53+00:00
作者：Zhihua Wang, Yu Long, Qinghua Lin, Kai Zhang, Yazhu Zhang, Yuming Fang, Li Liu, Xiaochun Cao
分类：cs.CV, cs.MM
原文链接：http://arxiv.org/abs/2504.12204v1

中文摘要：深度神经网络（DNNs）近年来已成为低光照图像增强（LLIE）的主流方法。然而，尽管取得显著进展，在实际应用中其输出仍可能出现噪声放大、白平衡错误或增强不自然等问题。关键挑战在于缺乏能够捕捉低光照条件和成像管线复杂性的多样化大规模训练数据。本文提出一种新颖的图像信号处理（ISP）驱动数据合成管线，通过生成无限量的配对训练数据来解决这些问题。具体而言，我们的管线从易于采集的高质量正常光照图像出发，先通过逆向ISP将其还原为RAW格式，随后直接在RAW域合成低光照退化。生成的数据随后经过一系列ISP处理阶段（包括白平衡调整、色彩空间转换、色调映射和伽马校正），并在每个阶段引入可控变异。这拓宽了退化空间并增强了训练数据的多样性，使生成数据能捕捉ISP管线固有的广泛退化类型和复杂性。为验证合成管线的有效性，我们使用仅包含卷积层、组归一化、GeLU激活和卷积块注意力模块（CBAMs）的基础UNet模型进行大量实验。跨多数据集的测试表明，采用本数据合成管线训练的UNet模型能生成高保真、视觉吸引力强的增强结果，在定量和定性上均超越当前最先进（SOTA）方法。

摘要

原文标题：Advancing quantum simulations of nuclear shell model with noise-resilient protocols
中文标题：基于噪声弹性协议推进核壳模型的量子模拟
发布日期：2025-04-16 01:13:39+00:00
作者：Nifeeya Singh, Pooja Siwach, P. Arumugam
分类：quant-ph, nucl-th
原文链接：http://arxiv.org/abs/2504.11689v1

中文摘要：摘要：通过利用量子计算机，可以克服核多体问题求解中的部分计算限制。核壳模型计算能深入揭示原子核特性，但随着希尔伯特空间随粒子数呈指数级增长，这类计算对资源需求极高。目前正通过开发量子算法来突破这些限制并推进此类计算。为构建核壳模型的量子电路，我们充分利用噪声中等规模量子（NISQ）设备的特性，致力于通过优化资源需求（特别是量子比特和量子门数量）并采用噪声抑制技术来降低噪声影响。我们基于Givens旋转为变分量子本征求解器（VQE）设计优化拟设，结合qubit-ADAPT-VQE与变分量子紧缩（VQD）方法计算基态和激发态，并整合零噪声外推抑制技术，从而实现噪声鲁棒性。此外，通过格雷码编码将基态映射至量子比特，并推广费米子算符变换以高效表示多体态，显著减少了量子比特需求。应用这些抗噪声方案后，我们以更高精度获得了³⁸Ar和⁶Li的基态与激发态能级，分别呈现了无噪声模拟、含噪声环境及噪声抑制后的结果，并对比了Jordan-Wigner编码与格雷码编码在VQE、qubit-ADAPT-VQE和VQD中的表现。本研究凸显了抗噪声方案在充分发挥NISQ设备潜力以扩展核壳模型计算方面的价值。

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能变异性研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式系统和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一具有代表性的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性模式，但波动幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：Dependency Dilemmas: A Comparative Study of Independent and Dependent Artifacts in Maven Central Ecosystem
中文标题：依赖困境：Maven中央生态系统中独立与依赖构件的对比研究
发布日期：2025-04-16 17:15:58+00:00
作者：Mehedi Hasan Shanto, Muhammad Asaduzzaman, Manishankar Mondal, Shaiful Chowdhury
分类：cs.SE
原文链接：http://arxiv.org/abs/2504.12261v1

中文摘要：Maven Central 生态系统构成了Java 依赖管理的核心，其托管的构件在采用度、安全性和生态角色上存在显著差异。构件复用是软件开发的基础，而Maven Central等生态系统正促进了这一过程。然而，先前研究主要分析了具有大量依赖的热门构件，却未探索那些没有传入依赖的独立构件。本研究分析了658,078个构件（其中635,003个至少有一个发布版本），发现93,101个构件（15.4%）为独立构件（入度=0），其余归类为依赖构件。通过PageRank和出度中心性分析，我们发现独立构件对生态系统至关重要。进一步基于18项指标的对比分析揭示了独立构件相较于依赖构件的优势与可比性：流行度相当（25.58 vs. 7.30）、漏洞更少（60个CVE vs. 179个CVE）且无漏洞传播风险。这些结果表明，独立构件能显著改善生态系统，为开发者提供安全、自包含的传统依赖替代方案。研究发现独立构件可能是更优的依赖选择，但也存在可维护性问题。因此开发者应审慎引入独立构件，而构件维护者应优先关注此类构件，以降低传递性漏洞传播风险并提升软件可持续性。

摘要

原文标题：A viscoplasticity model with an invariant-based non-Newtonian flow rule for unidirectional thermoplastic composites
中文标题：基于不变量的非牛顿流动法则的单向热塑性复合材料粘塑性模型
发布日期：2025-04-16 13:24:56+00:00
作者：P. Hofman, D. Kovačević, F. P. van der Meer, L. J. Sluys
分类：cs.CE
原文链接：http://arxiv.org/abs/2504.12069v1

中文摘要：摘要：本文提出了一种三维细观粘塑性模型，用于模拟单向热塑性复合材料的速率依赖性塑性和蠕变行为。该本构模型是对纯聚合物各向同性有限应变粘塑性模型的横向各向同性扩展。速率依赖性塑性和蠕变通过非牛顿流动法则描述，其中材料粘度通过Eyring型关系与等效应力度量相关。在当前公式中，通过将等效应力度量和流动法则定义为横向各向同性应力不变量的函数来实现横向各向同性。此外，Eyring型粘度函数还扩展了各向异性压力依赖性。该公式有效排除了纤维方向的塑性流动，并考虑了聚合物基体的压力依赖性。塑性变形过程中横向各向同性平面的重新定向被纳入本构方程，从而实现了精确的大变形响应。该公式完全隐式，并对算法本构方程进行了一致线性化以推导一致切线模量。通过与碳纤维/PEEK的微观力学模型、聚合物基体的原始各向同性粘塑性版本以及超弹性纤维的比较，评估了细观本构模型的性能。首先使用微观模型通过少量应力-应变曲线确定细观模型的材料参数。结果表明，细观模型在各种加载条件下都能给出与微观模型相似的响应。最后，通过单向热塑性复合材料层板的偏轴实验验证了细观模型的有效性。

摘要

原文标题：Advancing quantum simulations of nuclear shell model with noise-resilient protocols
中文标题：利用抗噪声协议推进核壳模型的量子模拟
发布日期：2025-04-16 01:13:39+00:00
作者：Nifeeya Singh, Pooja Siwach, P. Arumugam
分类：quant-ph, nucl-th
原文链接：http://arxiv.org/abs/2504.11689v1

中文摘要：摘要：通过利用量子计算机，可以克服解决核多体问题中的部分计算限制。核壳模型计算能更深入地揭示原子核特性，但随着涉及粒子数量的增加，希尔伯特空间呈指数级增长，这类计算对资源的需求极高。目前正在开发量子算法以应对这些挑战并推进此类计算。为开发适用于核壳模型的量子电路，我们充分利用噪声中等规模量子（NISQ）设备的性能，旨在最小化资源需求（特别是量子比特和量子门数量），并通过采用相关缓解技术来降低噪声影响。我们基于吉文斯旋转为变分量子本征求解器（VQE）设计优化拟设，并结合qubit-ADAPT-VQE与变分量子紧缩（VQD）来计算基态和激发态，同时采用零噪声外推缓解技术，从而实现噪声鲁棒性。此外，通过格雷码编码将基态映射到量子比特，并推广费米子算符变换以高效表示多体态，显著减少了量子比特需求。运用这些抗噪声方案，我们以更高精度获得了38Ar和6Li的基态与激发态能级，并分别呈现了无噪声模拟、含噪声条件及噪声缓解后的能级结果。研究对比了采用VQE、qubit-ADAPT-VQE和VQD时乔丹-维格纳编码与格雷码编码的效果。本工作凸显了抗噪声方案在充分发挥NISQ设备潜力以扩展核壳模型计算规模方面的价值。

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能变异性研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以得出关于实际性能的可靠结论。本文通过实证研究量化了云性能波动对基准测试结果的影响，重点关注作为数据密集型关键性能系统代表的流处理应用。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而能够评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性模式，但波动幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：Dependency Dilemmas: A Comparative Study of Independent and Dependent Artifacts in Maven Central Ecosystem
中文标题：依赖困境：Maven中央生态系统中独立与依赖构件的对比研究
发布日期：2025-04-16 17:15:58+00:00
作者：Mehedi Hasan Shanto, Muhammad Asaduzzaman, Manishankar Mondal, Shaiful Chowdhury
分类：cs.SE
原文链接：http://arxiv.org/abs/2504.12261v1

中文摘要：Maven Central 生态系统构成了Java 依赖管理的核心，其托管的构件在采用率、安全性和生态角色上存在显著差异。构件复用是软件开发的基础，而Maven Central等生态系统正促进了这一过程。然而，先前研究主要分析了具有大量依赖的热门构件，却未探索那些没有传入依赖的独立构件。本研究分析了658,078个构件（其中635,003个至少有一个发布版本），发现93,101个构件（15.4%）为独立构件（入度=0），其余归类为依赖构件。通过PageRank和出度中心性评估发现，独立构件对生态系统至关重要。针对18项指标的进一步分析揭示了独立构件相较于依赖构件的优势与可比性：流行度相当（25.58 vs. 7.30）、漏洞更少（60个CVE vs. 179个CVE）且无传播性漏洞。这些结果表明，独立构件显著影响生态系统，为开发者提供了安全、自包含的传统依赖替代方案。研究发现独立构件可能是更优的依赖选择，但也存在可维护性问题。因此开发者应审慎引入独立构件，而构件维护者应优先关注此类构件，以降低传递性漏洞传播风险并提升软件可持续性。

摘要

原文标题：Advancing quantum simulations of nuclear shell model with noise-resilient protocols
中文标题：基于噪声鲁棒协议推进核壳模型的量子模拟
发布日期：2025-04-16 01:13:39+00:00
作者：Nifeeya Singh, Pooja Siwach, P. Arumugam
分类：quant-ph, nucl-th
原文链接：http://arxiv.org/abs/2504.11689v1

中文摘要：摘要：通过利用量子计算机可以克服核多体问题求解中的部分计算限制。核壳模型计算能深入揭示原子核特性，但随着希尔伯特空间维度随粒子数呈指数增长，这类计算对资源需求极高。目前正在开发量子算法以应对这些挑战并推进此类计算。为构建核壳模型的量子电路，我们充分利用噪声中等规模量子（NISQ）设备的特性，着力减少资源需求（特别是量子比特和量子门数量），并通过采用噪声缓解技术降低噪声影响。我们基于Givens旋转为变分量子本征求解器（VQE）设计优化拟设，结合qubit-ADAPT-VQE与变分量子紧缩（VQD）方法计算基态和激发态，同时引入零噪声外推缓解技术，从而实现噪声鲁棒性。此外，通过格雷码编码将基态映射至量子比特，并推广费米子算符变换以高效表示多体态，显著降低了量子比特需求。采用这些抗噪声方案后，我们以更高精度获得了38Ar和6Li的基态与激发态能级，并分别呈现了无噪声模拟、含噪声条件及噪声缓解后的能级结果。研究对比了Jordan-Wigner编码与格雷码编码在VQE、qubit-ADAPT-VQE和VQD中的表现。本工作凸显了抗噪声方案在充分发挥NISQ设备潜力、扩展核壳模型计算规模方面的巨大潜力。

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证研究量化了云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而能够评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度往往低于普遍假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：Dependency Dilemmas: A Comparative Study of Independent and Dependent Artifacts in Maven Central Ecosystem
中文标题：依赖困境：Maven中央生态系统中独立与依赖构件的对比研究
发布日期：2025-04-16 17:15:58+00:00
作者：Mehedi Hasan Shanto, Muhammad Asaduzzaman, Manishankar Mondal, Shaiful Chowdhury
分类：cs.SE
原文链接：http://arxiv.org/abs/2504.12261v1

中文摘要：Maven Central生态系统构成了Java依赖管理的核心，承载着在采用率、安全性和生态系统角色上差异显著的构件。构件重用是软件开发的基础，而Maven Central等生态系统促进了这一过程。然而，先前研究主要分析了具有大量依赖的热门构件，对那些没有传入依赖的独立构件缺乏探索。本研究分析了658,078个构件（其中635,003个至少有一个发布版本），发现93,101个构件（15.4%）为独立构件（入度=0），其余归类为依赖构件。通过PageRank和出度中心性分析发现，独立构件对生态系统至关重要。针对18项指标的进一步分析揭示了独立构件相较于依赖构件的优势与可比性：具有相当的流行度（25.58 vs. 7.30）、更少漏洞（60个CVE vs. 179个CVE）且零传播漏洞。这些结果表明，独立构件显著影响生态系统，为开发者提供了安全、自包含的传统依赖替代方案。研究发现表明独立构件可能是更优的依赖选择，但也存在可维护性问题。因此开发者应审慎采用独立构件，而构件维护者应优先关注这类构件，以降低传递性漏洞传播风险并提升软件可持续性。

摘要

原文标题：Advancing quantum simulations of nuclear shell model with noise-resilient protocols
中文标题：利用抗噪声协议推进核壳模型的量子模拟
发布日期：2025-04-16 01:13:39+00:00
作者：Nifeeya Singh, Pooja Siwach, P. Arumugam
分类：quant-ph, nucl-th
原文链接：http://arxiv.org/abs/2504.11689v1

中文摘要：摘要：解决核多体问题的部分计算限制可通过量子计算机克服。核壳层模型计算能深入揭示原子核特性，但随着希尔伯特空间随粒子数呈指数增长，这类计算对资源需求极高。当前正开发量子算法以应对这些挑战并推进此类计算。为构建核壳层模型的量子电路，我们利用噪声中等规模量子(NISQ)设备的特性，旨在最小化资源需求（特别是量子比特和量子门数量），并通过采用噪声缓解技术降低噪声影响。我们基于Givens旋转设计优化的变分量子本征求解器(VQE)拟设，结合qubit-ADAPT-VQE与变分量子紧缩(VQD)方法计算基态和激发态，整合零噪声外推缓解技术，从而实现噪声鲁棒性。此外，通过格雷码编码将基态映射至量子比特，并推广费米子算符变换以高效表示多体态，显著减少了量子比特需求。采用这些抗噪声方案后，我们以更高精度获得了³⁸Ar和⁶Li的基态与激发态能级，并展示了无噪声模拟、含噪声条件及噪声缓解后的能级结果。研究对比了Jordan-Wigner编码与格雷码编码在VQE、qubit-ADAPT-VQE和VQD中的表现。本工作凸显了抗噪声方案在释放NISQ设备潜力、扩展核壳层模型计算规模方面的价值。

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能变异性研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以得出关于真实世界性能的可靠结论。本文通过实证研究量化了云性能波动对基准测试结果的影响，重点关注作为数据密集型、性能关键型系统代表的流处理应用。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而能够评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性模式，尽管波动幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：Dependency Dilemmas: A Comparative Study of Independent and Dependent Artifacts in Maven Central Ecosystem
中文标题：依赖困境：Maven中央生态系统中独立与依赖构件的对比研究
发布日期：2025-04-16 17:15:58+00:00
作者：Mehedi Hasan Shanto, Muhammad Asaduzzaman, Manishankar Mondal, Shaiful Chowdhury
分类：cs.SE
原文链接：http://arxiv.org/abs/2504.12261v1

中文摘要：Maven Central生态系统构成了Java依赖管理的核心，承载着在采用率、安全性和生态系统角色上差异显著的构件。构件重用是软件开发的基础，而Maven Central等生态系统促进了这一过程。然而，先前研究主要分析了具有大量依赖的热门构件，却未探索那些没有传入依赖的独立构件。本研究分析了658,078个构件（其中635,003个至少有一个发布版本），发现93,101个构件（15.4%）为独立构件（入度=0），其余归类为依赖构件。通过PageRank和出度中心性评估发现，独立构件对生态系统至关重要。针对18项指标的进一步分析揭示了独立构件相较于依赖构件的优势与可比性：具有相当的流行度（25.58 vs. 7.30）、更少漏洞（60个CVE vs. 179个CVE）且零传播漏洞。结果表明，独立构件显著影响生态系统，为开发者提供了安全、自包含的传统依赖替代方案。这些发现表明独立构件可能是依赖关系的有利选择，但存在可维护性问题。因此开发者应审慎引入独立构件，而构件维护者应优先关注此类构件以降低传递性漏洞传播风险，提升软件可持续性。

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过累计591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会导致结果准确度轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和采用不同处理器架构的机器类型中均保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证研究量化了云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而能够评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一具有代表性的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会导致结果准确度轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试间的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会导致结果准确度轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）考察性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能变异性研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会导致结果准确性轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时应运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式系统和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试间的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次重复测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）考察性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性模式，但波动幅度较小（≤2.5%）。跨多次重复测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和采用不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能变异性研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会导致结果准确性轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能变异性研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试间的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，聚焦流处理应用作为数据密集型、性能关键型系统的代表案例。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）考察性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和处理器架构的机型间保持一致性。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究者而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试间的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，聚焦流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和处理器架构的机器类型中保持一致性。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证研究量化了云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署了789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）考察性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和采用不同处理器架构的机器类型中保持一致性。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会导致结果准确性轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）考察性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会导致结果准确性轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）考察性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会导致结果准确度轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和采用不同处理器架构的机器类型中均保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试间的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能变异性研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）考察性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过累计591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准设施仅会导致结果精度轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和处理器架构的机型间保持一致性。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究者而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式系统和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一具有代表性的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现每日和每周周期性模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式系统和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证研究量化了云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署了789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会导致结果准确性轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证研究量化了云性能波动对基准测试结果的影响，重点关注流处理应用这一具有代表性的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能变异性研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会导致结果准确性轻微下降（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试间的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）考察性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现每日和每周周期性模式，但波动幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试间的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的多个维度（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）考察性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一具有代表性的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现每日和每周周期性模式，但波动幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（例如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试间的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试复用基准设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项持续三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes 集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度低于通常假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？——针对流处理应用的云性能波动研究
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以得出关于真实世界性能的可靠结论。本文通过实证量化云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而能够评估性能波动的各个方面（特别是时间效应相关因素）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日周期和周周期模式，但波动幅度较小（≤2.5%）。跨多次测试复用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

摘要

原文标题：When Should I Run My Application Benchmark?: Studying Cloud Performance Variability for the Case of Stream Processing Applications
中文标题：何时运行应用程序基准测试？：针对流处理应用案例研究云性能变异性
发布日期：2025-04-16 07:22:44+00:00
作者：Sören Henning, Adriano Vogel, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser
分类：cs.SE, cs.DC, cs.PF
原文链接：http://arxiv.org/abs/2504.11826v1

中文摘要：性能基准测试是软件工程中的常见实践，尤其在构建大规模、分布式和数据密集型系统时。虽然云环境为运行基准测试提供了诸多优势，但经常有报告指出重复测试的结果可能存在显著差异——这使得难以对实际性能得出可靠结论。本文通过实证研究量化了云性能波动对基准测试结果的影响，重点关注流处理应用这一典型的数据密集型、性能关键型系统。在一项历时三个多月的纵向研究中，我们重复执行了Dynatrace研发中使用的应用基准测试，从而能够评估性能波动的各个方面（特别是时间效应）。通过约591小时的实验，在AWS上部署789个Kubernetes集群并执行2366次基准测试，这可能是同类研究中规模最大且唯一从端到端（即应用基准测试视角）探讨性能的研究。我们的研究证实性能波动确实存在，但其程度通常低于假设（变异系数<3.7%）。与相关研究不同，我们发现性能确实呈现日和周周期性波动，但幅度较小（≤2.5%）。跨多次测试重复使用基准测试基础设施仅会轻微降低结果准确性（≤2.5个百分点）。这些关键发现在不同云区域和具有不同处理器架构的机器类型中保持一致。我们得出结论：对于关注检测显著性能差异（如>5%）的工程师和研究人员而言...

WikiEdge:ArXiv速递/2025-04-16

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

摘要

导航菜单

搜索