向量方向
向量方法的核心是对数据进行分割,即分类。它将文档视为多维空间中的点,然后将文档分拆到不同的类别中。系统必须学习这些类别,因此,进行的定制越多,分类的准确度就越高。目前有很多的搜索引擎采用了向量方法和布尔值方法的结合。
依赖于语言
必须对系统进行目标语言的相关定制,系统将只能识别定制的语言单词。而且系统对同义词或相关的单词没有与生俱来的理解能力,例如:系统无法判断 Creutzfeldt-Jakob 和疯牛病(mad cow)是相关的术语。
不够准确
向量方法的准确性不高,因为其分类方法存在缺陷,尤其是针对可以分入多种类别的文档时。它会将这种文档分入这些类别中的一个,但不能分入所有的类别。此外它也没有阈值或相关度等参数。也就是说这种方法无法指明某文档与其所属类别之间有多大的相关程度。文档对类别主题的论述是泛泛而谈还是详尽的阐述?向量方法无法说明这一点。
手动
所有的类别必须由管理员手动定义,因此,系统需要持续的监控和维护以保证其运行。类别如有变化,则整个定制过程必须从头开始,因为这种方法不具备针对系统的某一个领域进行更新的能力。
排序的不平衡性
由于无法比较不同字词对相关性影响程度的高低,该方法会以不常见的词语更能体现文章主题为前提,进而忽略常见的词汇。但这一前提有时并不正确,导致权重和分类错误。
Autonomy 的方法
Autonomy 的技术以概率为基础理解文档的内容,因此,无需理解某种特定的语言并建立对应的类别。在必要的情况下,Autonomy 可以将一个文档分入多个类别。其自动分类功能确保了在类别的创建和维护过程中,人工干预程度可以自由调节。
“我们被Autonomy强大的功能深深的吸引了,它可以处理几乎所有的结构化及非结构化信息,这是别的同类产品所无法实现的。它还可以把内、外部信息进行整合。用户们都喜爱它并且对它印象深刻。”
Duncan Fyfe, AstraZeneca




















