算机程序进行情境化任务提供了重要基础

Connect Asia Data learn, and optimize business database management.
Post Reply
Bappy11
Posts: 516
Joined: Sun Dec 22, 2024 9:28 am

算机程序进行情境化任务提供了重要基础

Post by Bappy11 »

开发适用于文献分析的标注方法是当前数字文献分析方法发展的中心任务之一,其中主要问题之一是选择合适的粒度。粒度必须比语料库语言学中使用的粒度更粗(典型的单位是单词或句子);它应该比既定的文学类别(典型单位是体裁或拼写)更为精细。数量还应包括标记时考虑较小的文本单元(例如段落)的文本内所需大小的分布。例如,在网络分析中检查人物的外观时,人们可以记录人物相对于相应房间的外观,同时记录文本单元(例如段落)。这样,就可以在文本中分离和比较个人故事情节。[29]

6.2 搜索结果的处理、评估和呈现
基于文本属性标记的数字文献分析与第 5 节中提到的结构化文本 亚美尼亚电报数据 捕获相对应。统一程序可以作为自动化程序应用于无限数量的文本,并允许在远远超出人类阅读能力的文本量中进行相同的可验证查询。

如果使用相同方法检查的不仅仅是单个文本,而是更大的文本语料库,即对许多文本执行相同的搜索查询,则会获得可统计分析的结果,这些结果可以使用统计学或计算机科学中的常用方法呈现:图形、地图、树、网络、气泡等可视化获得的搜索结果。弗朗哥·莫雷蒂在他的著作《欧洲小说地图集》(1999 年)、《图表、地图、树木》(2005 年)和《远距离阅读》 (2013 年)中讨论了这方面的详细例子。这种表现形式被认为具有吸引力且生动。到目前为止,它们仅在文学研究中得到非常有限的应用,但其接受度正在不断提高。不应忽视的是,尽管它们说明了搜索查询的结果,但它们本身仍然需要分析。

7.语义网中的文献分析
数字文献分析通常基于由各个工作组或机构开发的数字化文本或文本语料库。然而,这些文本通常不能自由访问,最重要的是它们不能链接到外部数据。数字化,即可在互联网上访问的机器可读文本,允许通过语义网中的数据网络进行进一步的分析。这种方法可以追溯到蒂姆·伯纳斯·李爵士,他于 2001 年提出用语义注释来补充万维网的功能,以便使所有文档文本中隐含的信息(人类读者可以理解)变得明确(即可被程序分析)。[30]

语义网基于使数字文档中的某些信息可通过 URI 识别。这些标识符可用于以任何顺序在其他文档中引用它们。这反过来又创建了一个参考网络(或者更好:一个图表),进而可以对其进行注释和查询。[31]为此目的可用的RDF 标准[32] 是一种标记格式,它不是专门为计算语言学开发的,[33]但它可以成功用于文学分析,最重要的是因为它除了记录语言和文本特征外,还能够完整地记录文本的结构和上下文及其参考概况。同样标准化的查询语言 SPARQL 允许在使用 RDF 构建的文档中任意搜索模式。
Post Reply