手动标记、权重和XML
随着企业门户日益广泛地得到应用,人们急需一种能够处理各种信息类型的分类方法。它应该能够处理文档、结构化数据、HTML、XML 以及多媒体内容。在对数字资料进行标记时,手工定义标记脚本的方法被广泛使用。
叙述的不一致性
每个人对文档进行标记或分类的方式都会有所不同。因此,为了获取该文档,用户必须猜测该文档会在哪个标签类别中。毫无疑问 ,通常会发生的情况是找不到正确的文档。
另一个问题是人们并不愿意花费精力进行详尽的标记工作。很多内容都会被归入“一般”类别,不但难于查找正确信息,也使整个分类系统变得毫无意义。
此外有很多文章的题目涉及多个主题。例如“变化的对外政策下俄罗斯的技术发展”既可以归入 (i) 俄罗斯的技术;也可以归入 (ii) 俄罗斯的对外政策;也可以归入 (iii) 俄罗斯经济。
这种情况下要做出决定不但复杂、耗时耗力,也会造成新的不一致性问题,尤其是当用户需要从大量的选项中做出选择时。举例而言,常见的报纸主题就可能包含超过 800 种标记,要在合理的时间内选择最基础的描述,是非常困难的。
标记的互用性差
XML 并不是一组标准的标记定义;相反,它允许用户自行定义标记。这意味着如果两家机构需要互相使用对方的内容,那么它们就需要事先就标记的定义达成一致。
对于少量人员通过公共网络进行的小规模合作来说这并不困难,但对大量业务合作伙伴之间的协作却远不能满足。
概念分离
标记也无法凸显不同主题之间的联系。有时看似标记不同的主题之间却存在非常重要的关系,例如空气动力学设计/低阻力以及翼型/效率。这被称为“概念分离”。很明显,这些类别之间存在某种程度的重叠,因此,用户可能会对两者都感兴趣。但是如果不能理解类别名称的含义,这种联系是不可能建立的。
不可扩展
为了保证标记文档在检索和处理上的准确性,必须提供大量的标记。举例而言,像路透社这样的公司需要使用数以万计的标记。但随着标记数量的增加,相应的工作量以及分类错误的可能性也会增加。
高人力成本
分类的创建以及标记仍然主要通过人力的方式进行,需要管理员、用户和 IT 人员进行手动的输入。这意味着信息的管理需要昂贵的人力成本。
Autonomy 的方法
Autonomy 实现了 XML 管理的智能化,它能够理解标记本身以及相关信息的内容和含义。




















