关键词和布尔表达式搜索
关键词和布尔表达式搜索是最为常见的信息检索方式,它们要求用户在文本框中准确输入其需要查找的字词。提交搜索后,包含搜索词的文档就将被列出来。
准确性和内容
当处理大量数据并且用户也完全明了其需要寻找的特定信息时,关键词和布尔值搜索的准确性是可以保证的。Autonomy 对这种方法也提供完全的支持。但是,尽管关键词搜索能够找出文档中匹配的字词,它却不能告诉我们整篇文档与所关注的主题之间有多大的相关程度。
请看以下的内容:
“那晚我走在一条街上。这条街又长又黑。等我走到街的尽头时,有个抢劫犯跳出来袭击了我。”
虽然句中多次出现“街”,但整段内容描述的却是一起犯罪事件。用关键词和布尔值方法搜索“街”时,该段内容很可能会被返回到搜索结果中,因此,这些方法有时并不准确。
针对这一点,关键词搜索方法常采用权重来对搜索结果进行排列。当对比关键词出现在不同位置的
两篇文档,其中一篇关键词出现在文档中的显著位置,例如标题,另一篇关键词出现在文档末尾,
搜索方法会认为前者的重要性比后者高,并给予其较高的权重值。此外关键词出现多次的文档得到的权重值也会比较高。
对于格式规范一致的数据,例如医学报告来说,权重关键词搜索技术表现会有所改善,当然 Autonomy 对此亦提供全面支持。但从另一个角度说,这种方法依然没有考虑字词的所处的语境以及文字所论述的主题,它排序的依据是:如果字词位于标题中或是常常被提到,那么整个文档的相关度必然较高。而 Autonomy 则通过精密的模式匹配技术来从语境上理解文档并提供概念类似的文档,无需依赖于关键词,从而避免了这一问题。
人工调节
有的关键词搜索引擎提供了人工调节结果的方法,包括复杂的布尔值表达式、关键词标记、关键词关联及/或类别。同样,Autonomy 也支持这些广为使用的技术。
但是无论关键词搜索引擎如何复杂,它的本质也只是查找匹配字词。这需要人工管理关键词的关联或类别。
举例而言:
关键词方法需要最终用户能够以复杂的特定表述方式(亦称为布尔表达式)来编写查询内容。这意味着用户需要掌握晦涩的搜索“规则”。
一开始的规则可能是这样的:
<以色列AND 巴基斯坦>
<以色列AND 巴基斯坦> OR <以色列 OR 巴基斯坦>
<以色列 OR 巴基斯坦>
这看上去好像足够了。但是如果用户特别关注以色列和巴勒斯坦之间冲突的升级,那么上述规则返回的文档有可能与这个关注内容无关,例如:
“以色列:20世纪初居住在巴基斯坦的犹太人数量很少;该数字在1845年为12,000,到1914年增长了85,000。”
此外,有些文章在编写时都假设读者已经了解一些背景资料,因此,可能并不包含上面的关键词“以色列”或“巴勒斯坦”,例如:
“针对这次自杀式攻击,阿拉法特先生宣布在加沙和西岸各地实行紧急状态,并且逮捕了75名激进分子。”
为了在搜索结果中包含这些文档,必须对规则进行修改:
<阿拉法特 OR "自杀式攻击" OR "紧急状态" OR "西岸">
但是,根据这种规则搜索,其结果也会返回其它自杀性袭击信息,因此,可能会导致遗漏与主体直接相关的有价值的文档,例如:相关团体对此的反应(如美国政府)。因此,必须对规则进行多次修改,确保搜索之返回相关结果。
<("阿拉法特" OR "沙龙" OR "布什") AND ("自杀式攻击" OR "紧急状态" OR "炸弹攻击") AND ("以色列" OR "巴勒斯坦" OR "西岸" OR "耶路撒冷")>
这只是最初的规则。如果我们再考虑需要对各种类别进行的持续不断的维护,那么情况将更加复杂。
上面的例子需要文档包含全部三个类别(姓名、暴力事件以及位置)中的匹配内容。如果文档并未包含全部三种内容,那么查询就会忽略这些文档。因此,这种方法需要详尽深入的人工劳动,而得出结果的准确性仍然无法保证。相反,Autonomy 可以自动了解文档的主题,在无需用户进行任何手动输入的情况下为他们提供相关材料。
学习能力
关键词搜索引擎不能随着使用进行“学习”。您也很难通过提供示例来查找内容。如用户在使用“与这个类似”功能时,在搜索框中提供一段示例文档,想要找到与这段文档描述的概念类似的文档——这样将增加查询关键词的个数,因为它是根据示例文档中最经常出现的术语而确定搜索关键词的。然后再根据该关键词进行匹配,将含有该关键词的文档反馈给用户。Autonomy 在支持这种方法的同时,其技术能够根据示例文档的概念找出匹配文档,因此,更为有益。
举例而言,某用户关心曼联足球俱乐部的经济状况。那么如果使用传统的“与这个类似...”功能,他可能会得到有关其他运动项目的文章,例如高尔夫球、网球甚至橄榄球。但 Autonomy 能够了解用户关心的是某个特定俱乐部的经济状况,从而提供相应的文档。
Autonomy 的方法
Autonomy 避免了类似的问题,它能够匹配概念,而不仅是匹配简单的关键词,当然它也能执行标准布尔文本查询。Autonomy 会考虑术语出现的语境,消除任何错误的信息,同时还能捕获那些本不包含特定术语,但是却包含相关概念的文档。




















