语义解析与自然语言分析
近 20 年来,人们为处理非结构化信息做出了许多努力。有一种方法称为语义解析与自然语言分析,它通过语法规则和辞典来理解文字信息。
语言本身的复杂性
虽然人们花了超过 20 年的时间来研究这种语义方法,在实际应用中却很少使用。因为它很难解决实际问题,很难解析含有歧义的内容,请看如下示例:
示例 1:“狗走进了房间;它是白色的。”
从句子看,我们很难知道白色的是狗还是房间。不过由于我们对狗和房间这两个概念很熟悉,因此,下面句子的含义对人类来说并不难理解:
“狗走进了房间,他是毛绒绒的”
“狗走进了房间,它布满了家具。”
但计算机却不行,其理解力不足以辨明句子中的歧义。部分较为先进的系统允许用户构建规则来处理这些不确定的情况。但这种规则不但复杂且难于维护,同时还会显著降低系统性能。
示例 2:: 'The fly, it's clear to me, can fly faster than the bee.'
计算机可能无法理解“fly”,因为在这个句子中它既用作名词也用作动词。这个问题还好解决,但“it”呢?如何去解析一个代表抽象概念的词?
当计算机对大段文章进行解析时,这种问题就更为明显。
示例 3:“总统乘车抵达,与中国总理会面。”
与基于关键词的方法类似,语义分析方法也无法判断概念之间的相对重要程度。换言之,计算机将认为“总统”,“车”、“中国总理”具有相同的重要性。此外,该解析方法也只适用于处理少量的内容,较为严格的解析机制很难从大段文字中提取出相对重要的含义。而 Autonomy 能够理解各种信息所包含的概念,无论是一段文字还是整个文档,且能确定文档中每个主题或概念的相关性及重要性。
可靠性
语义分析是以肯定/否定决策树以及严格的规则结构为基础,只要一项决策错误或出现未知的构造,整个分析过程都将受到影响。
依赖于语言
语义分析方法依赖于特定语言的语法结构,因此,俚语或语法不当的句型处理效果会大打折扣。因为需要对系统调整使其理解每个新词的含义或词义的变化,系统的扩展性不佳。此类系统的一个更为普遍的问题是只能支持很少的几种语言,例如英语、德语和荷兰语,像汉语这种从本质结构上不同的语言会造成很大的问题。而 Autonomy 的一个独特之处就是能处理任何一种语言。
问答式系统
越来越多的搜索引擎提供商向用户提供自然语言问题的形式来检索信息。对于针对有限信息的简短提问或查询,这种方法确实可行。但它的语言模型并不适用于包含大量概念的大文档。这是因为问答式系统需要依赖人工定义的“问题形式”以及结构化的相关答案数据库。因此,它们只能识别形式准确的问题,以及与数据库中的答案匹配的回答。对于人工定义的形式之外的概念或问题,系统无法理解,也无法为用户提供相关的答案。此外,问答式系统同样无法理解使用俚语提出的问题,甚至是句式与标准形式略有不同的问题,即使这些问题对人类来说并不难理解。
Autonomy 的方法
Autonomy 的模式识别技术使用词汇预分析模型来描述概念,不依赖于任何语言。




















