WikiEdge:ArXiv速递/2025-03-09:修订间差异

来自WikiEdge
跳转到导航 跳转到搜索
Carole留言 | 贡献
Updated page by Carole
Carole留言 | 贡献
Updated page by Carole
第52行: 第52行:
*'''原文链接''':http://arxiv.org/abs/2503.06442v1
*'''原文链接''':http://arxiv.org/abs/2503.06442v1
'''中文摘要''':分布外([[OOD]])检测对于确保[[机器学习模型]]在现实应用中的可靠性和安全性至关重要。尽管随着像[[CLIP]]这样的视觉-语言模型的出现,无需在分布内([[ID]])数据上进行训练的零样本[[OOD检测]]已成为可能,但现有方法主要关注语义匹配,未能完全捕捉分布差异。为了解决这些局限性,我们提出了[[OT-DETECTOR]],这是一个新颖的框架,利用[[最优传输]]([[OT]])来量化测试样本与[[ID标签]]之间的语义和分布差异。具体而言,我们引入了跨模态传输质量和传输成本,分别作为语义和分布方面的[[OOD评分]],从而实现对[[OOD样本]]的更鲁棒检测。此外,我们提出了一个语义感知内容优化([[SaCR]])模块,该模块利用[[ID标签]]的语义线索来放大[[ID]]与困难[[OOD样本]]之间的分布差异。在多个基准上的广泛实验表明,[[OT-DETECTOR]]在各种[[OOD检测]]任务中实现了最先进的性能,特别是在具有挑战性的困难[[OOD场景]]中。
'''中文摘要''':分布外([[OOD]])检测对于确保[[机器学习模型]]在现实应用中的可靠性和安全性至关重要。尽管随着像[[CLIP]]这样的视觉-语言模型的出现,无需在分布内([[ID]])数据上进行训练的零样本[[OOD检测]]已成为可能,但现有方法主要关注语义匹配,未能完全捕捉分布差异。为了解决这些局限性,我们提出了[[OT-DETECTOR]],这是一个新颖的框架,利用[[最优传输]]([[OT]])来量化测试样本与[[ID标签]]之间的语义和分布差异。具体而言,我们引入了跨模态传输质量和传输成本,分别作为语义和分布方面的[[OOD评分]],从而实现对[[OOD样本]]的更鲁棒检测。此外,我们提出了一个语义感知内容优化([[SaCR]])模块,该模块利用[[ID标签]]的语义线索来放大[[ID]]与困难[[OOD样本]]之间的分布差异。在多个基准上的广泛实验表明,[[OT-DETECTOR]]在各种[[OOD检测]]任务中实现了最先进的性能,特别是在具有挑战性的困难[[OOD场景]]中。
== 摘要 ==
* '''原文标题''':Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs
* '''中文标题''':基于套娃的多模态大语言模型的自适应音视频语音识别
* '''发布日期''':2025-03-09 00:02:10+00:00
* '''作者''':Umberto Cappellazzo, Minsu Kim, Stavros Petridis
* '''分类''':cs.CV, cs.MM, cs.SD, eess.AS
*'''原文链接''':http://arxiv.org/abs/2503.06362v1
'''中文摘要''':[[音频-视觉语音识别]](AVSR)利用[[音频]]和[[视觉模态]]来增强[[语音识别]]的鲁棒性,特别是在[[嘈杂环境]]中。近年来,[[大型语言模型]](LLMs)在[[语音识别]](包括AVSR)中的有效性得到了证明。然而,由于[[语音表示]]的长度较大,直接与LLMs集成会带来巨大的[[计算成本]]。先前的方法通过在将[[语音表示]]输入LLMs之前对其进行[[压缩]]来解决这一问题。然而,较高的[[压缩率]]通常会导致[[性能下降]],因此需要在[[计算效率]]和[[识别准确性]]之间进行权衡。为了解决这一挑战,我们提出了[[Llama-MTSK]],这是第一个基于[[Matryoshka]]的[[多模态]]LLM用于AVSR,它能够根据特定的[[计算约束]]灵活调整[[音频-视觉令牌分配]],同时保持[[高性能]]。我们的方法受到[[Matryoshka表示学习]]的启发,在单个模型内以多种[[粒度]]编码[[音频-视觉表示]],从而消除了为不同[[压缩级别]]训练单独模型的需求。此外,为了高效[[微调]]LLM,我们引入了三种基于[[LoRA]]的[[Matryoshka策略]],使用[[全局]]和[[特定尺度]]的LoRA模块。在两个最大的AVSR[[数据集]]上的广泛[[评估]]表明,Llama-MTSK取得了[[最先进]]的结果,匹配或超越了在固定[[压缩级别]]上独立训练的模型。

2025年3月11日 (二) 08:19的版本

摘要

  • 原文标题:Coal Strength with Dewatering and Coal Seam Gas Depletion
  • 中文标题:脱水与煤层气耗竭对煤强度的影响
  • 发布日期:2025-03-09 11:23:40+00:00
  • 作者:Jimmy Xuekai Li, Thomas Flottmann, Max Millen, Shuai Chen, Yixiao Huang, Zhongwei Chen
  • 分类:physics.geo-ph
  • 原文链接http://arxiv.org/abs/2503.06561v1

中文摘要:理解的机械特性对脱水和气体耗竭的响应对于估计钻孔稳定性和设计煤层气(CSG)井至关重要。尽管其重要性,这些过程对煤强度的全面影响仍然很少被探索。本研究旨在通过结合微CT成像声波测试和煤样机械测试的结果来量化这些影响。微CT成像通过关注裂缝孔隙度和裂缝强度(P32因子)等参数,提供了对煤内部结构的深入见解。声波测试在干燥和湿润条件下测量动态特性,包括P波S波速度(Vp和Vs)以及动态杨氏模量(Ed)。带有声发射(AE)监测的机械测试评估静态特性,如杨氏模量(Es)和单轴抗压强度(UCS)。主要发现包括:(i)微CT成像显示煤裂缝孔隙度与P32之间存在强相关性,提供了对煤微观结构的详细见解;(ii)机械测试显示干燥样品的Es比湿润样品高10%,UCS高31%,表明脱水增加了煤的强度,但也可能促进脆化;(iii)声波测试中湿润样品显示出更高的Vp和Ed,表明水饱和度显著影响声波测量。这些发现提高了对脱水和气体耗竭效应的理解,为煤层气(CSG)操作中更先进的地质力学模型奠定了基础。

摘要

  • 原文标题:The New CMS Measure of Excessive Radiation Dose or Inadequate CT Image Quality: Methods for Size-Adjusted Dose and Their Variabilities
  • 中文标题:CMS 新的过量辐射剂量或 CT 图像质量不足的测量方法:尺寸调整剂量及其变异性的方法
  • 发布日期:2025-03-09 14:43:25+00:00
  • 作者:Gary Y Ge, Charles M Weaver, Jie Zhang
  • 分类:physics.med-ph
  • 原文链接http://arxiv.org/abs/2503.06644v1

中文摘要医疗保险和医疗补助服务中心CMS)引入了CMS1074v2,这是一种用于评估18种CT检查类别的辐射剂量图像质量质量指标。该指标要求使用患者有效直径和预定义的大小调整系数来计算大小调整剂量SAD)。然而,SAD计算方法的变异性引发了关于标准化合规性临床适用性的担忧。本研究评估了五种常用的有效直径估计方法及其对胸部腹部CT协议SAD确定的影响。对719次CT检查进行了回顾性分析,比较了不同计算方法下的SAD值。结果表明,SAD存在显著变异性,基于衰减的方法在胸部检查中高估了SAD,而基于投影的方法在腹部检查中表现出更大的变异性。这些发现突显了CMS定义的剂量阈值可能存在的不一致性,以及在多样化患者群体机构成像实践中应用该指标的挑战。解决这些不一致性对于确保准确的剂量报告和维持CT成像诊断完整性至关重要。

摘要

  • 原文标题:Relationships between Students' Social Roles and Academic Performance based on Social Network Analysis
  • 中文标题:学生社交角色与学业表现之间的关系:基于社交网络分析的研究
  • 发布日期:2025-03-09 07:25:46+00:00
  • 作者:Sirinda Palahan
  • 分类:cs.SI
  • 原文链接http://arxiv.org/abs/2503.06493v1

中文摘要同伴互动社会角色一直是影响学生学业表现的重要因素。最近关于泰国学生学业表现影响因素的研究主要集中在学校质量、学生背景和学生自身等方面。少数研究分析了社会角色与学生学业成就之间的相关性。因此,本研究旨在测量泰国本科生的社交网络,并分析他们在社交网络中的角色与学业成果之间的关系。数据分析基于社交网络理论置换检验。社交网络理论用于测量关键的网络特征并提取社会角色。在社交网络中提取了四种角色:核心成员小团体成员联络者孤立者,并分析了这些角色与学业表现之间的关系。数据通过问卷从384名学生中收集,并用于构建两种类型的网络:朋友网络学习助手网络。置换检验用于统计假设检验。结果表明:1)在朋友网络和学习助手网络中,成为核心成员与学业表现呈正相关。在所有学校和两种类型的网络中,成为核心成员的程度与学业表现之间的相关系数也均为正。2)在学习助手网络中,成为孤立者与学业表现呈负相关。这些结果表明,社交网络在学业表现中起着至关重要的作用。研究结果建议,学术机构应鼓励学生社交网络的发展,并加强网络建设,以便学生更容易交流知识并在学习中互相帮助,从而提高学业表现。

摘要

  • 原文标题:Assessment of the point-wise approach for the Turbulent Settling of finite-size particles
  • 中文标题:有限尺寸颗粒湍流沉降的点式方法评估
  • 发布日期:2025-03-09 06:46:29+00:00
  • 作者:Francesco Battistaa, Sergio Chibbarob, Paolo Gualtieria
  • 分类:physics.flu-dyn, 76T20
  • 原文链接http://arxiv.org/abs/2503.06481v1

中文摘要:我们研究了在统计稳态的均匀各向同性湍流中,直径约为十个柯尔莫哥洛夫尺度且密度略大于载流体的相对较大颗粒的悬浮沉降问题。通过改变颗粒与流体的密度比,获得了广泛的伽利略数范围,这些数是浮力与粘性力的比值。我们通过高分辨率单向耦合直接数值模拟来分析该问题,其中颗粒被建模为质点。物理参数的选择与最近的颗粒解析模拟(PRS, [1, 2])中使用的范围相同,并与这些模拟进行了比较。点状模拟的结果与PRS结果非常吻合,显示出在所研究的参数范围内,沉降速度有所降低,这些参数与悬浮在水介质中的颗粒沉降相关,体积分数高达几个百分点,密度比约为1。结果是在忽略颗粒间和颗粒-流体相互作用的情况下获得的,同时有意在颗粒的运动方程中包含/不包含不同的力(例如斯托克斯阻力附加质量升力),以分别突出它们的贡献。在高伽利略数下,平均沉降速度仅略微受到湍流波动的影响,并且与静止流体中单个颗粒的沉降速度相同。当伽利略数降低时,沉降速度逐渐受到湍流波动的影响,导致颗粒沉降速度显著下降。目前的结果对应用特别重要。通过直接与颗粒解析模拟[1, 2]进行比较,证明了具有精确流体动力描述的点状模型在捕捉颗粒沉降速度和其他高阶统计量方面是有效的。

摘要

  • 原文标题:Improving Access to Trade and Investment Information in Thailand through Intelligent Document Retrieval
  • 中文标题:通过智能文档检索改善泰国贸易和投资信息的获取
  • 发布日期:2025-03-09 07:21:57+00:00
  • 作者:Sirinda Palahan
  • 分类:cs.IR, cs.SI
  • 原文链接http://arxiv.org/abs/2503.06489v1

中文摘要海外投资贸易对初学者来说可能令人望而生畏,因为涉及大量复杂信息。本文提出了一种集成自然语言处理信息检索技术的聊天机器人系统,以简化文档检索过程。该系统能够识别最相关的内容,使用户能够更高效地浏览复杂的外贸投资信息。我们的方法结合了BM25模型深度学习模型,对文档进行排序和检索,旨在减少文档内容中的噪声并提高结果的准确性。通过泰语自然语言查询的实验,证明了该系统在检索相关文档方面的有效性。用户满意度调查进一步验证了系统的有效性。大多数受访者认为该系统有帮助,并同意推荐的文档,表明其作为泰国企业家应对外贸和投资的潜在价值。

摘要

  • 原文标题:OT-DETECTOR: Delving into Optimal Transport for Zero-shot Out-of-Distribution Detection
  • 中文标题:OT-DETECTOR:深入最优传输用于零样本分布外检测
  • 发布日期:2025-03-09 04:47:19+00:00
  • 作者:Yu Liu, Hao Tang, Haiqi Zhang, Jing Qin, Zechao Li
  • 分类:cs.CV, cs.MM
  • 原文链接http://arxiv.org/abs/2503.06442v1

中文摘要:分布外(OOD)检测对于确保机器学习模型在现实应用中的可靠性和安全性至关重要。尽管随着像CLIP这样的视觉-语言模型的出现,无需在分布内(ID)数据上进行训练的零样本OOD检测已成为可能,但现有方法主要关注语义匹配,未能完全捕捉分布差异。为了解决这些局限性,我们提出了OT-DETECTOR,这是一个新颖的框架,利用最优传输OT)来量化测试样本与ID标签之间的语义和分布差异。具体而言,我们引入了跨模态传输质量和传输成本,分别作为语义和分布方面的OOD评分,从而实现对OOD样本的更鲁棒检测。此外,我们提出了一个语义感知内容优化(SaCR)模块,该模块利用ID标签的语义线索来放大ID与困难OOD样本之间的分布差异。在多个基准上的广泛实验表明,OT-DETECTOR在各种OOD检测任务中实现了最先进的性能,特别是在具有挑战性的困难OOD场景中。

摘要

  • 原文标题:Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs
  • 中文标题:基于套娃的多模态大语言模型的自适应音视频语音识别
  • 发布日期:2025-03-09 00:02:10+00:00
  • 作者:Umberto Cappellazzo, Minsu Kim, Stavros Petridis
  • 分类:cs.CV, cs.MM, cs.SD, eess.AS
  • 原文链接http://arxiv.org/abs/2503.06362v1

中文摘要音频-视觉语音识别(AVSR)利用音频视觉模态来增强语音识别的鲁棒性,特别是在嘈杂环境中。近年来,大型语言模型(LLMs)在语音识别(包括AVSR)中的有效性得到了证明。然而,由于语音表示的长度较大,直接与LLMs集成会带来巨大的计算成本。先前的方法通过在将语音表示输入LLMs之前对其进行压缩来解决这一问题。然而,较高的压缩率通常会导致性能下降,因此需要在计算效率识别准确性之间进行权衡。为了解决这一挑战,我们提出了Llama-MTSK,这是第一个基于Matryoshka多模态LLM用于AVSR,它能够根据特定的计算约束灵活调整音频-视觉令牌分配,同时保持高性能。我们的方法受到Matryoshka表示学习的启发,在单个模型内以多种粒度编码音频-视觉表示,从而消除了为不同压缩级别训练单独模型的需求。此外,为了高效微调LLM,我们引入了三种基于LoRAMatryoshka策略,使用全局特定尺度的LoRA模块。在两个最大的AVSR数据集上的广泛评估表明,Llama-MTSK取得了最先进的结果,匹配或超越了在固定压缩级别上独立训练的模型。