尽管舒查德的信件已按上述方式手动分类,但可靠的书写者识别仍可用于识别舒查德的论文,以识别保存在“Werkmanuskripte”部分中的散页和笔记,这些散页和笔记经常由舒查德的通信者发送给他,但与最初包含这些信件的信件分开,并且没有任何签名。未来,在异构集合中已识别抄写员的大型数据集上测试和改进书写者识别可能会为其在手写档案清点框架中的使用铺平道路。
数据集图像采用留一页方案进行评估;从单个测试集中,将一个查询图像与所有剩余图像进行测试,从而得到一个有序列表,其中第一个返回的图像由同一作者撰写的概率最高。从检索列表中,我们可以计算算法的准确率。作为错误指标,我们使用 ›Soft‹ Top-k、›Hard‹ Top-k 和平均准确率 (mAP)。Soft Top-k 表示等级 k 的准确率。换句话说,它描述了正确的作者出现在前 k 个检索到的文档中的概率。相反,Hard Top-k 率给出了前 k 个文档由与查询文档相同的作者撰写的概率。平均准确率是信息检索中常用的指标。对于每个查询文档,计算检索列表中相关文档的平均准确率。因此,准确率等于检索列表中等级 k 的相关文档数量除以 k。
3.4 实验
首先,我们对整个数据集进行了评估,这意味着我们没有将数据集分成独立的训练集 奥地利电报数据 和测试集。因此,背景模型源自相同的待评估数据。我们决定使用每位至少贡献了两页的抄写员的所有页面。对于 Clusius 数据集,这产生了来自 182 位不同抄写员的 2029 页。Schuchardt 数据集有 193 位不同抄写员撰写的 12,846 页。请注意,我们从两个数据集中丢弃了与实际信件(或明信片)无关的几张图像。
初步结果表明,TOP-k 准确率非常可观(表 1)。在所有案例中,Clusius 和 Schuchardt 数据集分别有 82% 和 89% 的案例正确识别了查询页面的作者。90% 和 97% 的高 TOP-10 率也表明可以在候选名单中快速检测出正确的作者。
然而,29% 和 34% 的较低 mAP 值表明数据集中有些页面很难识别。这很可能与包含很少文本的图像有关,例如仅包含地址的信件或明信片。还要注意,每个作者的文档数量非常不平衡,因此 Clusius 数据集中有六位作者,每人贡献了 50 多张图片。因此,这些作者的文档页面可能比数据集中出现次数较少的作者的页面更容易被识别。