所以我认为这个算法,ALBERT,真的有很大的潜力。但我们先不谈这个。还有很多其他因素可能与内容权威性相关。
2. 信息密度
我非常喜欢的一点是信息密度的概念。很多时候,我们在写内容的时候,尤其是在我们不熟悉主题的时候,会写很多无关紧要的内容。
我们只是根据合同要求的字数来添加文字,一个页面的字数并不能真正决定它是否能排名。所以,判断一段内容是否真正有价值,或者至少是否提供了重要信息的一种方法是使用自然语言程序来提取信息。
ReVerb + OpenIE
嗯,也许最流行的 NLP 开源技术,或者至 挪威电报手机数据 少是公开可用的技术,最初是一个名为 ReVerb 的项目,现在已经合并到 Open IE 项目中。基本上,你可以给它输入一段内容,它就会输出该内容所提出的所有事实主张。
因此,如果我给它一段话,说网球是一项用球拍和球进行的运动,我今天玩得很开心,诸如此类,它就能识别出关于网球的事实主张,即网球是一项用球拍和球进行的运动。
但这忽略了“我今天玩得很开心”这个说法,因为这并不是一条真正的信息,而是我们提出的一个事实主张。所以,信息密度的概念是,从文档中提取的事实数量与总字数的比例。好的。