WikiEdge:ArXiv-2408.17428v1/methods：修订间差异

可视化wikitext

2024年9月3日 (二) 10:35的最新版本

编辑

这篇论文的工作部分详细介绍了如何使用基于变换器的语言模型（LMs）进行光学字符识别（OCR）后处理以提高OCR质量。以下是这部分的主要内容：

OCR后处理（Post-OCR Correction）：
- 讨论了OCR在转换物理记录为数字文本过程中容易出错的问题，特别是在报纸和期刊等复杂布局的文档中。
上下文利用OCR校正（Context Leveraging OCR Correction, CLOCR-C）：
- 提出了CLOCR-C的概念，利用预训练语言模型的填充和上下文适应能力来改善OCR质量。研究旨在确定LMs是否能够执行OCR后处理，提高下游自然语言处理（NLP）任务的性能，以及提供社会文化背景作为校正过程的一部分的价值。
数据集和抽样方法（Datasets and Sampling Methodology）：
- 使用了三个数据集进行实验：19世纪期刊版（NCSE）、《悉尼先驱晨报》和美国报纸档案Chronicling America。采用了分层随机抽样方法，确保样本能够代表整个数据集的分布。
语言模型（Language Models）：
- 比较了七种流行的LMs在OCR后处理中的表现，包括GPT-4、GPT-3.5、Llama 3等。
实验设置（Experimental Setup）：
- 描述了用于提示选择过程和LM评估指标的提示变体，以及用于测试下游任务改进的实验。
下游任务评估（Downstream Task Evaluation）：
- 通过命名实体识别（NER）任务来评估OCR后处理对下游任务的影响，使用余弦命名实体相似度（CoNES）作为评估指标。
社会文化信息的使用（Use of Socio-Cultural Information）：
- 探讨了在OCR校正中提供文本的社会文化背景信息的重要性，并通过实验验证了正确和误导性提示对LMs性能的影响。

@@ 第1行： / 第1行： @@
 <div style="float: right;">[{{fullurl:WikiEdge:ArXiv-2408.17428v1/methods|action=edit}} 编辑]</div>
-这篇文献的工作部分详细介绍了如何利用基于[[变换器]]的[[语言模型]]（[[LMs]]）进行[[光学字符识别]]（[[OCR]]）后处理校正。以下是这部分的主要内容：
+这篇论文的工作部分详细介绍了如何使用基于[[变换器]]的[[语言模型]]（LMs）进行[[光学字符识别]]（OCR）后处理以提高OCR质量。以下是这部分的主要内容：
-# '''数据集和抽样方法'''：
+# '''OCR后处理（Post-OCR Correction）'''：
-#* 使用了三个数据集，包括19世纪期刊版（[[NCSE]]）、《[[悉尼先驱晨报]]》和美国报纸档案[[Chronicling America]]。这些数据集包含了不同时期和地区的报纸，用于训练和评估模型。
+#* 讨论了OCR在转换物理记录为数字文本过程中容易出错的问题，特别是在[[报纸]]和[[期刊]]等复杂布局的文档中。
-#  '''语言模型（Language Models, LMs）'''：
+# '''上下文利用OCR校正（Context Leveraging OCR Correction, CLOCR-C）'''：
-#* 比较了七种流行的基于变换器的LMs，包括[[GPT-4]]、[[GPT-3.5]]、[[Llama 3]]等，这些模型通过[[API]]访问，覆盖了最大的LM公司。
+#* 提出了CLOCR-C的概念，利用[[预训练语言模型]]的填充和上下文适应能力来改善OCR质量。研究旨在确定LMs是否能够执行OCR后处理，提高下游[[自然语言处理]]（NLP）任务的性能，以及提供[[社会文化]]背景作为校正过程的一部分的价值。
-#  '''实验设置'''：
+# '''数据集和抽样方法（Datasets and Sampling Methodology）'''：
-#* 实验分为三个部分：[[提示]]（[[prompt]]）的选择和LM评估指标、下游任务改进的测试、以及利用LM进行OCR校正的概念性演示。
+#* 使用了三个数据集进行实验：19世纪期刊版（NCSE）、《[[悉尼先驱晨报]]》和美国报纸档案[[Chronicling America]]。采用了分层随机抽样方法，确保样本能够代表整个数据集的分布。
-#  '''提示变体和选择过程'''：
+# '''语言模型（Language Models）'''：
-#* 研究了不同的提示格式对LMs校正效果的影响，包括基本提示、专家提示、文本内容提示等，以确定最佳的提示策略。
+#* 比较了七种流行的LMs在OCR后处理中的表现，包括[[GPT-4]]、[[GPT-3.5]]、[[Llama 3]]等。
-#  '''下游任务评估：命名实体识别（Named Entity Recognition, NER）'''：
+# '''实验设置（Experimental Setup）'''：
-#* 使用[[NER]]任务来评估OCR校正后的数据质量，通过比较原始OCR文本和校正后的文本中的实体识别性能。
+#* 描述了用于提示选择过程和LM评估指标的提示变体，以及用于测试下游任务改进的实验。
-#  '''利用社会文化信息'''：
+# '''下游任务评估（Downstream Task Evaluation）'''：
-#* 探讨了在提示中提供社会文化背景信息对OCR校正性能的影响，包括正确和误导性的社会文化背景。
+#* 通过[[命名实体识别]]（NER）任务来评估OCR后处理对下游任务的影响，使用余弦命名实体相似度（CoNES）作为评估指标。
+# '''社会文化信息的使用（Use of Socio-Cultural Information）'''：
+#* 探讨了在OCR校正中提供文本的社会文化背景信息的重要性，并通过实验验证了正确和误导性提示对LMs性能的影响。

WikiEdge:ArXiv-2408.17428v1/methods：修订间差异

2024年9月3日 (二) 10:35的最新版本

导航菜单

搜索