WikiEdge:ArXiv-2408.17428v1/background：修订间差异

←上一编辑

可视化wikitext

2024年9月3日 (二) 10:33的最新版本

编辑

这篇文献的背景主要集中在以下几个方面：

光学字符识别（OCR）在历史印刷媒体档案数字化中的重要性：
- 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要。这些档案，如期刊和新闻媒体，为研究历史事件提供了原始视角和见解。
- 然而，OCR技术在将实体记录转换为数字文本的过程中容易出错，尤其是在处理报纸和期刊这类布局复杂的文档时。
OCR错误对后续自然语言处理（NLP）任务的影响：
- OCR过程中的错误会负面影响使用这些档案的研究质量，尤其是在进行命名实体识别（NER）、情感分析、文本分类或问答等下游NLP任务时。
- 因此，提高OCR质量，尤其是在历史文档和报纸档案的OCR处理中，是当前研究中的一个活跃领域。
基于变换器的语言模型（LMs）在OCR后处理中的潜力：
- 近年来，基于变换器架构的语言模型在自然语言处理领域取得了显著进展，这些模型能够执行复杂的语言任务，并且在某些情况下达到或超越人类水平。
- 这些模型的“注意力”机制和掩码语言建模（MLM）训练方法使它们能够更好地理解和纠正文本中的错误，为OCR后处理提供了新的可能性。

综上所述，这篇文献的背景强调了在历史文档数字化过程中提高OCR准确性的需求，以及利用先进的语言模型来改进OCR输出和增强后续NLP任务的潜力。

@@ 第1行： / 第1行： @@
-本文介绍了一种基于[[忆阻器]]的计算存储硬件加速器，用于片上训练和推理，重点关注其在设备变化、导电误差和输入噪声下的准确性和效率。
+<div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/background|action=edit}} 编辑]</div>
-利用商业可用的基于[[银]]的金属自定向通道（M-SDC）忆阻器的真实SPICE模型，研究将固有的设备非理想性纳入电路仿真中。
+这篇文献的背景主要集中在以下几个方面：
-硬件由30个忆阻器和4个[[神经元]]组成，利用[[钨]]、[[铬]]和[[碳]]介质的三种不同的M-SDC结构执行二进制[[图像分类]]任务。
+# '''[[光学字符识别]]（[[OCR]]）在历史印刷媒体档案数字化中的重要性'''：
-片上训练算法精确调整忆阻器导电性以实现目标权重。结果表明，训练期间加入适度噪声（<15%）可以增强对设备变化和噪声输入数据的[[鲁棒性]]，
+#* 历史印刷媒体档案的数字化对于提高当代记录的可访问性至关重要。这些档案，如期刊和新闻媒体，为研究历史事件提供了原始视角和见解。
-即使在导电变化和输入噪声下也能实现高达97%的[[准确率]]。网络可以在不显著损失准确率的情况下容忍10%的导电误差。值得注意的是，
+#* 然而，[[OCR]]技术在将实体记录转换为数字文本的过程中容易出错，尤其是在处理报纸和期刊这类布局复杂的文档时。
-在训练期间省略初始忆阻器重置脉冲可以显著减少训练时间和能量消耗。使用基于铬的忆阻器设计的硬件表现出优越的性能，
+# '''[[OCR]]错误对后续[[自然语言处理]]（[[NLP]]）任务的影响'''：
-实现了2.4秒的训练时间和18.9毫焦耳的能量消耗。这项研究为开发用于[[边缘应用]]的[[片上学习]]的鲁棒和能效高的基于忆阻器的[[神经网络]]提供了见解。
+#* [[OCR]]过程中的错误会负面影响使用这些档案的研究质量，尤其是在进行[[命名实体识别]]（[[NER]]）、[[情感分析]]、[[文本分类]]或[[问答]]等下游[[NLP]]任务时。
+#* 因此，提高[[OCR]]质量，尤其是在历史文档和报纸档案的[[OCR]]处理中，是当前研究中的一个活跃领域。
+# '''基于[[变换器]]的[[语言模型]]（[[LMs]]）在[[OCR]]后处理中的潜力'''：
+#* 近年来，基于[[变换器]]架构的[[语言模型]]在[[自然语言处理]]领域取得了显著进展，这些模型能够执行复杂的语言任务，并且在某些情况下达到或超越人类水平。
+#* 这些模型的“[[注意力]]”机制和[[掩码语言建模]]（[[MLM]]）训练方法使它们能够更好地理解和纠正文本中的错误，为[[OCR]]后处理提供了新的可能性。
+综上所述，这篇文献的背景强调了在历史文档数字化过程中提高[[OCR]]准确性的需求，以及利用先进的[[语言模型]]来改进[[OCR]]输出和增强后续[[NLP]]任务的潜力。

WikiEdge:ArXiv-2408.17428v1/background：修订间差异

2024年9月3日 (二) 10:33的最新版本

导航菜单

搜索