另一方面,包含多样化甚至矛盾信息的数据被称为“嘈杂”——并且大多数方法都会消除它所包含的噪声,因为它是不确定的,因此从 NLP 的角度来看不是合适的材料。[31]
然而,文学研究认为,文学文本可以被解读者以不同的方式理解,这一事实受到主题和方法的制约,因此是正常的,甚至不必要的。文学研究中普遍存在的解释多元化至少有以下三个原因:(1)最重要的原因在于对文学文本根本多元性的假设。[32] 根据该论点,文学文本的一个典型特征是它们可以用不同的方式来解读。不同的解释往往是等效的,但又可以相互矛盾。根据这一假设,对不同解释的普遍标准化必须被视为对文学文本模糊性的忽视。 (2)文学研究接受解释多元化的另一个原因是理解或意义概念的模糊性,这可能与文学文本的多价性有关。文本解读的目的是为了理解文本或掌握其含义。但是,“含义”并不一定总是相同的意思。按照丹尼伯格的说法,每一种文本解释都隐含或明确地基于一个意义概念,这个意义概念决定了在这种解释框架内什么被理解为文本意义,或者这种意义是如何构成的。[33]意义的概念可以是作者导向的,文本导向的,接受者导向的,或者语境导向的。[34] 如果对某个文本或文本的一部分有两种相互竞争的解释,其原因可能是这些解释基于不同的意义概念。 (3)除了目前提到的两点之外,还必须注意到,解释总是必须进行非演绎推理的操作,例如溯因推理(推断出最佳解释)。[35]这种推论是为了找出文本所暗示的内容,因此两个解释者可能会根据同一篇文本得出不同的结论,但这两种结论都是可以接受的。这种情况出现在上面讨论的时态变化的例子中[36],其中对文本数据的最佳解释显然是时态变化并不代表偏离时间顺序的呈现。然而,在类似的情况下,并不总是完全清楚这个结论是否真的由文本暗示,这就是为什么其他结论也可能有意义。
3.3 后果题上不相容的特定主题观点要求双方采取措施,以便能够在 heureCLÉA 项目上进行合作:由于数据注释是数字启发式开发的第一步,因此在叙事学方面首先要考虑的是,在多大程 巴林电报数据 度上可以减少文本选择和分析中的稀疏性和噪声问题。对于基于规则的程序和机器学习方法的后续步骤,必须在计算语言学方面找到一条路径,以符合文学的示范性和解释多样性原则。正如我们将在下文中展示的那样,这些措施不仅导致了对立立场的和解,而且对两个学科的问题都产生了积极影响——在某些情况下远远超出了数字启发式的项目目标。
文学文本分析的示范性所导致的稀疏性问题,只是由heureCLÉA 项目3.1 节中提到的示范性工作的第二个原因造成的:在 heureCLÉA 中,作品的意义需要通过综合解读来凸显,因此个别文本的特殊性并不起任何作用。然而,叙事学分析需要精确且耗时的文本工作,这也是大量文本无法被注释的原因。同时,我们对在分析基础上创建的数字启发法的要求是,它们应该适用于尽可能多的——不同的——叙述文本。因此,尽管文学分析工作量大带来了实际限制,但 heureCLÉA 中的方法仍旨在从两个方面实现可推广的结果:
(1)文本基础:为了确保我们的模块不只适应单个作品的特殊性,我们研究了不同作者的 21 个故事。这样,提供了至少部分异构的数据基础,从而增加了将结果转移到其他文本的机会。为了第一步取得可用的结果,我们语料库中的文本在各个方面并不是异构的,但大多都是在同一时期(1900 年左右)写成的。然后可以测试结果的进一步普遍性——例如使用来自其他时期或不同范围的叙述文本。