IDOL Server
智能数据操作层 (Intelligent Data Operating LayerTM,IDOL) 服务器位于 Autonomy 软件的核心地位。IDOL Server 收集来自各连接器的数据,并以其能够实现快速处理和检索的独特结构储存它们。在处理信息时,IDOL 能够联系概念和语境来理解企业中所有的内容,对超过一千种不同格式的信息乃至使用者的兴趣进行自动的分析。IDOL 允许对数据资源进行超过 500 种操作,包括超链接、代理、摘要、分类、聚类、结构化信息抽取、档案建立、个性化信息提醒以及检索。
IDOL 使企业能够在保留人工控制能力的同时享受自动化带来的益处。这种互补的方法将自动化的处理与多种可人为控制的因素相结合,使手动与自动操作可以互相结合。
IDOL 还能与所有已知的遗留系统整合,企业无需努力将新老系统和组成部分拼凑起来。
“安全性是 IDOL 体现出自己独到之处的一个重要方面。它提供了映射式的安全架构以及几乎实时的安全权限同步功能,因此,非常适用于对安全性要求较高的搜索应用场合”
The Forrester WaveTM: 企业搜索平台,Matthew Brown
欲知更多详细信息,请参阅:
Autonomy 技术白皮书(英语)
欲知更多详细信息,请参阅:
IDOL Server 技术摘要(英语)
IDOL开放架构
随着信息爆炸问题的日益显著,Autonomy 的技术被越来越多的大型全球化企业采用,来满足它们在可扩展性和性能方面的需求。Autonomy 的分布式以及模块化的架构只需普通服务器,即可支持数以十万计的文档、数以万计的用户以及事务。其中最大的规模已经超过了 100 亿个文档。此外,经过加密的计算机间以及进程间的通讯协议与 Autonomy 的模块化设计紧密结合,为整个架构中的所有信息传输提供了高度的安全性。Autonomy 的安全技术甚至得到了军方的认可。
Autonomy 面向服务的架构 (ASOA)
Autonomy 的基础架构产品在设计时尤其重视重复利用性、模块化、组件化、互用性以及性能等原则。而 Autonomy面向服务的架构 (ASOA) 则是这些设计原则的延伸。Autonomy 的所有模块都属于可选用的服务,并使用标准的 SOAP 作为其接口,这样大量基于语义的功能都能作为服务提供给用户。
由于数据通讯和传输的运作环境可能会随着业务需求或企业内使用模式的不同而变化,因此,其运行模式和限制是多变的,并且很可能是不可预测的。作为企业级软件,Autonomy 通过自主开发的 Autonomy Enterprise MessagingBus (AEMB) 来有效管理其架构中所有的信息传递过程,从而构建并实现 ASOA。基于 TCP/IP 的 AEMB 能够将可用计算资源的额度最大化。
欲知更多详细信息,请参阅:
Autonomy 技术白皮书(英语)
欲知更多详细信息,请参阅:
IDOL Server 技术摘要(英语)
信息通常根据其类型进行存储 - 客户记录存储在客户关系管理系统(CRM)系统中,目录信息存储在数据库中,而信件和报告则存储在文档管理系统(DMS)中。但是,如果个体要有效地执行 一个商业任务,就需要立即访问所有相关信息。DMS 中出现了客户的抱怨信件,但是该客户的详细资料则隐藏在 CRM 系统中;如果不了解他们所购买的产品(存储在产品数据库中的信息),将很难帮助他们。
Autonomy 的数据采集器将所有分散的数据源中的信息采集到IDOL(智能数据操作层),因此,当个体执行搜索时,无论是关键字搜索还是概念搜索,也不管原始数据实际存储在哪里,都会将所有搜索结果返回。
Autonomy 实践
两家投资银行合并后不久,决定建立一个统一的研究系统平台,以便其客户可以即时访问合并后的银行的所有与研究资料。这包括全球范围内的 PDF 文件、Lotus Domino 服务器站点,以及存储在文档管理系统和网络上的大量 Microsoft Office 格式文档,形式参杂混合。要将所有这些数据合并到一个系统的前端,传统上需要开发多个接口,每个接口连接一个不同的数据源。相反,如果新合并的银行部署 IDOL 整合所有的数据源,IDOL 可简单为每个数据源配置相应的数据采集器。当各种类型的信息导入到 IDOL 后,一个单一的 JSP 前端就能够提供所有数据的检索、自动超链接(相似文档自动推送) - 无论数据格式是什么,也不管它存储在哪里。
数据采集器
Autonomy 提供的各种数据采集器支持 200 多种数据格式。而且,Autonomy 还积极关注市场上流行的文件格式和存储系统,并对所有第三方技术提供支持。
另外,Autonomy 的数据导入 API(Autonomy 应用程序开发接口的一部分)允许客户和集成商开发其自己的数据采集器,以便支持其内部可能存在的私有格式或定制的存储系统。
安全性的支持
在分布式需求(例如,对整个组织进行整体的搜索)时,必须确保数据的检索符合组织现有的安全体系是非常重要的事情。
Autonomy 提供可被完全集成的基础结构,确保系统的下层基础结构符合客户的安全体系要求。
多语言支持
现代型企业的数据不可能只有一种语言的。分布式搜索功能的一个重要功能是能够在多语言组织内支持语言和编码的检索需求。
Autonomy 的技术是语言独立的,存储系统(数据库)或文档可以包含无限多种语言。我们使用 XML(UTF-8)作为内部存储格式,使我们能够支持多种编码,并可确保 IDOL 的输出与现有企业系统内部的格式相匹配。
全球高效分布系统架构与可扩展性
当广泛分布在全球的大量用户访问多个大型存储系统时,系统设计必须能够满足基础结构复杂性的快速增长和可扩展性,以及满足服务质量的要求。 Autonomy 的 IDOL 和“企业搜索”可通 过大量产品来帮助设计和建立上述系统,这些产品包括分布式查询处理器(DQH)、分布式索引处理器(DIH)、分布式服务处理器 (DSH)以及众多的 Autonomy 服务管理产品。
安全性
目前有多家对安全性有严格要求的机构使用着 Autonomy 的智力资产保护系统 (IAS) 来保护其敏感的信息。Autonomy 的安全性措施涵盖各个方面,包括前端的用户身份验证,后端的权限检查以及 IDOL Server及其客户端应用程序之间通过 128 位 Block Tiny 加密算法 (BTEA) 进行的通讯。IDOL 的映射式安全模型是唯一一种通过实践证明能够随企业发展一同扩展的索引安全模型。
“使 Autonomy 软件与众不同的一个因素就是其高度的安全性。无论应用程序层上存在何种级别的安全模块,Autonomy 都能进行识别。”>
Carol Fineagan,EnergySolutions 首席信息官,《CIO Magazine》,2008 年 7 月

非映射式安全模型
一般而言,安全模型可以分为以下三种:
1. 非映射式安全模型:
这是用于源存储库以及搜索引擎的传统方法。每当发现与查询匹配的内容时,系统将通过存储库的 API(例如Documentum)来发出呼叫,确定匹配文档的具体访问权限。由于检索系统需要从数以千计的备选结果中找出允许访问的部分,故每个查询都会对存储库发出大量的文档权限请求。这种方法在性能和可扩展性方面存在很大的问题。
Autonomy 推荐使用映射式安全模型,但也允许用户在映射式、非映射式以及混合方法三者中自由选择。此外Autonomy 还提供了插件的示例代码,供客户、OEM 以及合作伙伴开发并部署自己的安全插件。
2. 缓存方法:
这是传统系统所常用的方法。通过存储先前的查询结果,缓存安全模型得以略微缓解非映射式模型的扩展性问题。当用户进行相同的查询时,系统就能从缓存中提取出结果,而无需发出以网络作为媒介的请求。但对于新的查询,这种方法仍然需要依赖通过网络直接向存储库发出的请求。此外,由于所存储的结果集合并不会随着新信息的加入而动态更新,这种方法有可能会遗漏部分结果。
3. Autonomy 独特的 IAS 映射式安全模型:
Autonomy 提供了独特的映射式安全模型。具有配置自由、高度安全、高度准确以及高性能等特征,同时能够无缝平移第三方的安全权限规则。IDOL 在各存储库中以 ACL、用户组、角色和保护性标识等形式实施的安全模型与 IDOL 引擎本身的内核之间建立起直接的映射关系,并将信息存储在经过加密的字段中。如此,IDOL 就无需在构建结果列表时通过网络向数据存储库发送请求。允许用户查看的内容将在 IDOL 内核中直接分析得出,而其速度则是源存储库的响应速度所不可比拟的。与其他技术的不同之处在于该模型能够始终保证信息的时效性,因为如果所涉及的内容或相关权限有任何变化,连接层上的实时传讯机制就将这种变更随时告知 IDOL Server。

IDOL 的架构是模块化的,它要求多个子系统通过可能并不安全的网络进行通讯。因此,有必要对各流程中的通讯内容进行加密(安全套接字层),这样即使数据包监听程序得以绕过防火墙,也无法读取 IDOL 模块之间传递的实际内容。系统的所有模块都能在安全通讯模式下运作,只需很小的额外处理负载就能实现 128 位的加密保护。除此之外,IDOL 在聚合和查询内容时都能利用 SSL,其中包括访问经 SSL 加密的站点。
欲知更多详细信息,请参阅:
Autonomy 安全性白皮书(英语)
可扩展性和性能
能够对结构化以及非结构化内容进行管理的平台必须满足严格的性能要求,同时其规模也应能自由调节以适应业务需求。IDOL 的可扩展性使其能够支持大规模的企业级以及门户式部署,得到了几乎所有市场领域的认可。由于 IDOL 的可扩展性是建立在其模块化、分布式的架构之上的,故其只需市售的普通双 CPU 服务器即可实现对大量数据的处理。举例而言,ChoicePoint 的 100 亿条记录只使用了几百台入门级的企业计算机,而对于同样规模的数据,Google 需要使用 150,000 台计算机。
单个 IDOL 引擎可以:
这种强大的可扩展性节省了硬件上的成本,并且能够处理更多的内容。当然,尽管 IDOL 能够在市售的普通服务器硬件上使用,但如能使用具有高并行度以及 SMP 处理能力的 64 位环境(例如 Intel 的 Itanium 64 位架构)、软件平台(例如 Solaris 10、Linux 64、Win64 等等)、分布式服务器群以及常用的外部磁盘阵列(例如 NAS、SAN 等)来提高性能,IDOL 的灵活架构就更能体现出其优势。
工作原理
通过连接器将各个存储库中的内容聚合,然后通过索引输入 IDOL Server,或通过分布式索引处理器 (DIH) 将其分入多个 IDOL Server。DIH 可以有效地将大量数据分割并输入多个 IDOL Server 实例,通过批量处理数据、重复执行所有索引命令、调用动态负载分配来优化性能。DIH 还可执行依赖于数据的操作以便提高查询的效率,例如根据日期分配内容。分布式操作处理器 (DAH) 进一步提升了性能。它是一种允许用户将操作命令分配给多个 IDOL Server 的分配服务器。在通过 DAH 将操作分配给多个 IDOL Server 实例后,更能保证服务在服务器故障的情况下不会中断DAH 和 DIH 都能通过配置灵活地运行于镜像模式(即 IDOL Server 互为各自的复本)或非镜像模式(IDOL Server 的配置互相不同,包含不同数据)下。分布式服务处理器 (DiSH) 组件则实现了其他 Autonomy 组件的审核、监控与提醒操作。
线性扩展
只需加倍现有计算机的数量,系统的性能和容量也会随之翻倍,因此,用户可准确预测系统扩展后的结果。
负载均衡
数据可以自动被复制输入多个服务器中,这样用户的请求可以通过负载均衡机制分配给不同的服务器进行处理。这保证了系统性能、降低了延时并且改善了用户体验。
镜像/故障转移
自动生成的复本被用于建立起服务器群。系统将自动选择主服务器资源,而在主服务器发生故障时系统将自动转换到备用服务器上以便保持服务的连贯。
分布式
对于涵盖地域广泛的机构,系统将在必要时自动创建并利用本地的复本。只有在本地系统发生故障时才会使用远程的资源,从而通过单一、无缝整合的服务提供良好的容错性与高效的本地处理,同时减少对额外资源的依赖。
自适应概率式概念缓存
常用的概念将被存储于内存中,提高返回对应结果时的速度和效率。
多维索引及查询节流
通过使用多维索引向分布式组件提供有价值的信息,IDOL 能够在索引和查询过程中排除各类影响因素和不平衡峰负载。
Autonomy 基于以下提供优先级的节流:
“我们与 Autonomy 已合作多年了,他们为我们提供了具有卓越性能、高度安全性和可扩展性的下一代企业搜索平台。”
K. Sriram 先生,高级副总裁,萨蒂扬咨询与企业解决方案实践,2007 年
欲知更多详细信息,请参阅:
Autonomy 性能与可扩展性白皮书(英语)
全球化语言支持
当今全球化企业时常需要使用多种语言开展业务,仅使用一种语言进行交流已不再可行,这些企业急需一种能够对多语种内容进行管理的工具。与此对应,Autonomy 通过单一的平台(IDOL Server)提供了强大的多语言支持能力。

Autonomy 为 BBC 的网站提供了针对 30 多种语言的支持
IDOL Server 从统计学的角度出发,利用精密的概率建模和模式识别技术对任何一种语言中的模式进行理解,其中包括汉语、德语、西班牙语、阿拉伯语、日语和挪威语等等。IDOL 目前支持 106 种语言,但由于该技术本身是独立于语言的,故增加对新语言种类的支持并不困难。IDOL 使用非线性的自适应数字讯号处理技术,通过高效的概率建模来提取文档的含义。由于这种技术的基础是数学而不是语言学,它在提取含义时并不需要采用依赖于语言的解析机制和辞典功能。其他的企业级平台常需要使用事先提供的语法或语言规则,而 IDOL 则能够通过所索引的内容,借助统计学来理解内容中存在的模式。因此,即使内容中包含俚语或特别的行业术语,IDOL 的处理也不会受到任何影响。其技术是基于贝叶斯概率论进行推理,因此,它在某个领域所处理过的内容(例如法律术语、医药词汇等)越多,它对该领域的认识就越成熟。
对于 IDOL 来说,一种新的语言只不过是另一种信息类型而已。只要提供足够的内容,IDOL 就能充分理解它。因此,只要对应的内容量足够,用户就可以使用 IDOL 处理多种语言。此外 IDOL 还能实现跨语言应用,用户可以用英文发出查询,而系统将返回英语和其他语言(例如西班牙语)的对应结果。系统提供了对传入的内容以及查询进行自动语言识别的功能。
Autonomy 的技术建立在学习并适应新信息的原则之上,因此,它能够将先前需要大量人工劳动的过程,例如元数据标记和目录创建等自动化。其他的解决方案需要用户告知词语或概念的含义以及对应的分类方法,而 IDOL 则能自动推断出新表意单元的重要性,自动将其加入相关的类别,并且在必要时创建新的类别。
处于核心地位的 IDOL 技术独立于数据的类型而运作,可以为各种单字节或多字节语言提供支持。世界各地使用任何一种语言的用户都能使用同样的功能,而系统本身也能随着语言的发展而一同进步。这种能力对全球化的机构来说意义重大,因为各地的员工现在能够实现协作,而专家则能为整个企业提供支持。作为一种模式化并且可扩展的产品,Autonomy 的软件从根本上说实现了全球化,能够在任何一个地理位置以完全的功能在任何一种规模下运作。Autonomy 提供的自定义词表功能则进一步加强了它的本地化特性,其中包含了词干提取、停用词表、语音直译、多编码方式支持以及自动分词。
支持多种系统平台
Autonomy支持如下操作系统:
IDOL K2TM
在收购 Verity 之后,Autonomy 将继续 Verity K2 的开发和技术支持工作。K2 7 是它成为 Autonomy 旗下产品后的第一个版本,其中包含了一系列新的功能和选择。K2 7 将 K2 和 IDOL Server 有机结合,通过在 IDOL 内核上提供 K2 稳健的企业搜索功能改进了产品的性能和可扩展性。
K2 7 的特色包括:

安全查询的性能 - 单实例

索引时间 - 单实例

K2 用户的选择
用户可以选择继续使用原有 K2 应用程序,或迁移至基于 IDOL 内核的 K2 7 上。
无缝升级至 K2 7
企业可继续依原样使用其 K2 应用程序,同时享受更好的可扩展性和性能。
继续使用熟悉的用户接口
所支持的客户端 API 使 K2 的用户无需放弃先前开发的用户接口。针对 C、PHP、COM/+、HTTP、Java 和 .NET 的API 使用户可以继续使用熟悉的用户接口。
保留原先的管理功能
K2 用户建立的自定义查询可继续用于 K2 7 下。Verity 查询语言 (VQL) 中所有的调用都可沿用,无需进行调整。此外由于查询将在本机进行,故性能也会得到改善。
通过智能配置向导加快部署过程
K2 7 通过一种直观并且高度互动的向导加快了它的部署过程。这一框架能够感知其所处的系统环境,藉以实现对现有的 K2 系统进行扫描、调试和升级操作,使其能够在 K2 7 环境下直接使用。此外,K2 数据库文件能够自动地在本机被升级。K2 7 的用户可以选择对现有的数据集进行查询,也可以选择自动导入数据集中的相关元数据和安全信息。在两种情况下,数据集都会自动被调整为新的 K2 7 格式,以便应用新版本下加入的操作。





















