Autonomy - 让 XML 智能化
|
可扩展标记语言(Extensible Markup Language)是网络上用于结构化文档的通用格式。 |
概览
XML 正在成为对数字化内容进行标记的常用方法。但是要使其能够在降低成本的同时提升信息管理的效率,还存在相当大的困难。对这些困难的认知不足,或是无法将 XML 所依赖的繁杂的管理过程自动化,都可能导致非常高的人力成本以及描述时的不一致性。
Autonomy 通过将 XML 的标记过程自动化并进行管理来克服了这些困难。因此,Autonomy 可以被视为让 XML 的车轮真正转动起来的润滑剂。
什么是 XML?
XML (eXtensible Markup Language) 提供了一组标准的描述方式以对数字化信息进行标记,其目的是自动并快速地识别内容,并在计算机之间无缝地交换数据。
因此,XML 期望能克服 HTML 这种单一化、不灵活的文档类型所带来的局限性,并避免完全 SGML 的复杂性。XML 最为常见的应用是提供非结构化内容的元数据以使其结构化,以及在不同的应用程序及操作系统之间交换数据。这些应用的基础是基于一组通用的“文档类型定义” (DTD) 来实现信息的映射、转换以及投送。
因此 XML 有可能在在线信息源的发展过程中起重大作用。但是与所有的标记方法一样,它也存在着诸多局限性:
局限性
-
手动过程
XML 的局限性中首屈一指的是在选用标记时采用的手动过程。手动描述信息这一方法(虽然是通过现有的描述进行)中人类行为及其内在限制的一个实例是美国国防部的一条规定所带来的结果,这条规定的内容是负责编写文档的内部人员需要适当地描述文档的内容。这看起来似乎是一条明智而又有实际意义的决定。但是实行几个月后,人们发现大多数文档都被简单地描述并标记为 "General" (一般)。
虽然 XML 尝试避免使用这种一般性的用词,但这些方法还是依赖于最终会形成“不一致性”的人类行为中相同的缺点。人们描述信息的能力依赖于它们个人的经验、知识和看法。这种“无形” 的因素会随着人和环境的变化而编号,从而大幅降低最终结果的效力。
若文章涵盖多个主题,将会带来更多的复杂性。像《变化的对外策略下俄罗斯的科技发展》这样的文章是应该分在 (i) 俄罗斯的科技、(ii) 俄罗斯的对外策略还是 (iii) 俄罗斯的经济?这种决策过程不但复杂耗时,同时还会引发新的不一致性,尤其是在用户需要在大量的选项中进行选择时。例如,例如对于一般的报纸主题就存在着 800 种标记,这使得在合理的时间内为基本的主题选出适当的描述也变得非常困难。
将概念分离的标记也不能突出主题之间的关系。所谓“概念分离” ,是指有些标记不同的主题之间通常存在着重要的关系,例如机翼设计/低阻力与机翼/效率。第一个类别可能包含如何设计机翼以降低空气阻力。第二个类别讨论制造高效机翼的方法。很显然,这两个类别之间存在着一定的重叠,因此用户可能对这两个类别中的内容都感兴趣。但是如果无法理解类别名称的含义,用户将无法在它们之间建立联系。
-
特定性
为了保证在对基于 XML 的文档进行检索与处理时的准确性,就需要有很多的标记。例如,在像 Reuters 这样的公司中就有数万个标记。但是随着标记数量增多,需要进行的劳动以及分类错误的可能性也会增多。
-
标记的共用性
XML 并不是一组标准标记的定义,而是一组允许用户定义标记的定义。这表示如果两家企业需要进行合作,并且用同样的方式理解同样的标记,那么它们就需要事先就标记的定义达成一致。
对通过公共网络进行合作的小组来说这是可行的,但这种方法是否能经调节以支持由行业中的合作伙伴组成的大规模网络尚没有定论。
尤其是对诸如汽车工业这样的领域,共用性是非常重要的。随着即时传递、销售商库存管理、供应链整合的出现,以及对运输以及仓库管理的依赖性的提升,人们越来越需要将各行业的术语一致化。但是要想创建能够实现透明的共用性的 XML 规范,就需要在理解全球化业务需要的基础上进行。
Autonomy 与 XML
Autonomy 的软件消除了与 XML 相关的传统问题,这是因为其核心技术让计算机能够理解非结构化信息并且自动插入适当的 XML 标记。因此 Autonomy 不但完全与 XML 兼容,并且实现了 XML 元信息在创建、更改以及使用方面的高效性。
根据从文档内容中推断得出的类别,Autonomy 自动使用 XML 标记来对数据进行标注。这些标记使信息得以被保持并重新利用,且系统可以自动对信息进行分类,或将其送至适当的用户处。员工或管理员无需将时间浪费在手动插入 XML 标记上,从而缩短了开发周期,降低了人工成本,并且消除了手动所带来的效率低下。
Autonomy:XML 与特定的应用
Autonomy 结合 XML 还可用于另一个较为讲求细节的应用,即供应链的管理。其中借助了 XML 能够准确地记录产品代码或目录编号的能力。该应用中可能会有更多的传达数量或其他补充细节的非结构化信息。
在这种情况下,除了自动生成标记以外,Autonomy 还能对相关的周边信息进行分析与处理。举例而言,飞机制造商可能指定对某个数量的组件进行自动的运输,而在实际操作中,该数字还会因为生产方法、技术问题以及安装方式等发生变化而受到影响。这时,供应链管理的自动化通常无法继续进行,因为这些信息的处理需要人工干预,而在更糟的情况下信息将被丢弃,或无法被识别。
这种问题也存在于商务应用中。通过 XML,电子商务销售商能够使用同一种标准对产品以及相关信息(价格、尺寸、颜色、功能)进行标记,让客户能够通过 web 进行比对。但是这一模式中自动化的成分也可能被破坏,例如带有花色的夏季裙装也可被分类为印花裙装。总而言之,虽然可供人工阅读的 XML 标记提供了一种简单的数据格式,但最终实现其价值的是这些标记背后的定义,以及其使用方式的共同性。要真正实现 XML 所带来的益处,就需要解决例外处理与概念分离的问题,而这正是使整个系统能够运作的基础。
结论
Autonomy 解决了创建 XML 标记时使用的手动方式所带来的效率低下问题,此外还通过理解标记及其相关信息的内容与目的来为 XML 的管理添加了智能化的层面。
因此,Autonomy 可以被视为让 XML 的车轮真正转动起来的润滑剂。






















