与语言无关
作为 Autonomy
技术核心的概念匹配技术并不依赖于英语或是某种其他语言的语法结构。它处理字词时,是将其视为抽象的表义符号,并且通过其出现的情况来推导其含义,而不是根据呆板的语法定义来进行。俚语或是其他在语言方面的变化并不会对软件造成困扰。IDOL
服务器拥有“普通”英语模式的理解能力,但用户可针对任何一种语言(德语、西班牙语、葡萄牙语、阿拉伯语、意大利语、法语、日语、挪威语等)的模式来训练该引擎。
所面临的问题
随着经营者们越来越意识到让企业面向全球市场的价值,英语的主导地位也越来越受到挑战。他们认识到了用客户本地/自身的语言来进行交流的必要性,并且将业务国际化能扩大企业知识的范围,增加知识量。
在实施门户网站、电子商务服务或是企业知识管理系统时,经营者们都面临着国际化这一问题。
本白皮书讨论了 Autonomy 技术独立于语言种类的特点,它使得 Autonomy 能够支持世界范围内的各种语言,从而提供诸如以下的优势:
- 国际化的专业知识交流
- 利用全球化的信息资产
- 通过拓展市场来获得发展
定义
简介
语言的定义是:“人类以一定的组合和模式使用声音以及文字符号,从而就思想与感情进行表达与交流。”
如该定义所示,人们以特定的模式使用语言来表述知识与信息这样的抽象概念。要想完全发挥存储在世界各地的知识库中信息的潜力,那么就应在全球范围内的用户群中分发/共享这些知识,而不考虑原先提供这些信息时所使用的语言。
现在大多数的企业需要管理的内容中都不仅仅包含一种语言。因此独立于语言种类的解决方案的重要性(及其价值)非常高。为了开辟其他国家中的市场,企业需要使用另一种语言来提供新的以及现有的信息,但是企业已无法接受这一过程的成本。Autonomy 的技术及其架构在这一方面非常理想。它拥有完全模块化的设计,能够根据内容进行调节,从而达到快速利用任何时间任何语言的信息这一目标。
关键因素
国际化指的是开发程序核心时,保证其功能与代码编写不会依赖于某一种语言的特征。
当开发处理信息的软件时,存在以下的关键问题
- 其核心算法是否依赖于语言结构、符号的数字化表示等因素?
- 其核心算法是否依赖于某一种特定语言的结构?就是说,要使其支持另一种语言,是否需要对系统进行重新设计与开发?
Autonomy 处理语言的方法
Dynamic Reasoning Engine™ 基于的是高级模式匹配技术(非线性自适应数字信号处理),它能够通过高性能的概率建模技术来提取出文档中的要素,从而判定表达文字含义的特征。由于其基础是概率建模技术,因此它不需要任何形式的语言解析操作或是字典。处理字词时,IDOL 服务器将其视为抽象的表义符号,并且通过其出现的情况来推导其含义,而不是根据呆板的语法定义来进行。
随着时间的推移,IDOL 服务器能通过统计来理解内容中出现的模式。处理过的有关某一特定类型(如法律条款、药物产品的发展、技术等)的信息越多,IDOL 服务器就越容易理解这些主题。而新的语言对于 IDOL 服务器来说,只不过是需要收集足够的材料以进行学习的另一种信息“类型”而已。因此用户在 IDOL 服务器中可以将多种语言的信息混合,前提是以某种语言表达的信息量足以让 IDOL 服务器进行理解。
所使用的语言不会影响 IDOL 服务器提取出的概念的准确性。因为无论面对哪种语言,所使用的基础算法是一样的。
对依赖于语言种类的功能的使用
虽然 Autonomy 的技术完全独立于语言种类,但有时使用依赖于语言种类的功能有助于提升企业业绩。Autonomy 提供了以下能够优化系统的功能:
- 忽略列表: 每种语言都有不表达任何明显含义的“虚词”。从语法的角度上说,它们通常是介词、连词、辅助动词等。例如,英语中的 "the"、"a" 、“and”、"to"等。处理信息时可以忽略这些单词。
- 词干提取: 在大多数语言中可以通过对单词的变体进行处理以提取出单词的词干。如在英语中,单词 "run"、"runner"和 "running" 都可被处理为其词干 "run",这样并不会对含义造成很大影响。当处理文本以提取所用单词列表时,即可使用词干提取功能。
Autonomy 本身并不需要忽略列表和词干提取功能,因为其进行的统计分析一般能判定这些单词的重要性及其之间的关系。但忽略列表和词干提取规则允许 IDOL 服务器在最初的配置时忽略虚词并将一组单词作为一个单词处理,从而降低存储空间的需求和处理时间。
对于常用语言,Autonomy 提供了标准的忽略列表和词干提取算法。
- 字译方案: 字译是指用另一种字母表中对应的字符来表示字母或单词的能力。有些语言使用了字译方案,使用户无需使用支持原有字母表的特殊键盘即可编写文字。Autonomy 支持如希腊语、俄语等语言中常用的大多数字译方案。
- 大小写字符匹配: 单词的大小写方式不会影响其含义。大小写的目的只是为了便于阅读,或进行强调(如姓名、段落开始等)因此需要考虑字符可能使用的大小写方式,保证单词无论使用哪种大小写方式不同都可被匹配。这种功能称为不区分大小写。各种语言中字符的大小写方式有所不同,而有的语言没有大小写这种概念。
- 字符的规范化: 有些语言中的字符拥有不止一种的表现方式。如在日语中,其片假名既可以用全角字符书写,也可以用半角字符。无论使用的是哪种字符,其含义是向他的。罗马字符表中的字母与数字也有这种问题。在某些双字节语言中,可能会使用这些字符的双字节形式。Autonomy 的产品将所有的形式规范成一种形式,从而保证其处理方式相同。
Autonomy 技术带来的益处
全球化的实施
有越来越多的内容以某种特定的语言/某一特定数目的语言提供,并且越来越多的用户使用英语以外的语言。尤其是在世界各地越来越多的公司将信息放到网上并在线使用它们以进行电子商务这样的环境下。要使全球化国际化的策略成功,企业就需要业界领先的功能,因此他们对基础技术提出了严格的要求。
Autonomy 的技术及其架构在这一方面非常理想。它拥有完全模块化的设计,能够根据内容进行调节,从而达到快速利用任何时间任何语言的信息这一目标。
拓展形成跨语言的系统
Autonomy 的核心技术可用于建立跨语言的系统。举例而言,这允许用户在查看英文文档时,获得有关英语以及西班牙语的类似信息的建议。
Dynamic Reasoning Engine™ 能够在多种语言之间建立联系。为此用户需要准备一个用于进行训练的数据集,其中包含使用所需语言的文档。在理想情况下,其中每一段文字都是另一段的直接翻译。此外还可以使用电子词典。然后该跨语言的内容将被输入 IDOL 服务器的数据库,引擎将借此形成对两种语言中所涉及概念的一般性理解。数据库建立完毕后,IDOL 服务器即可在多种语言的词语之间建立联系,使其能够同时检索多种语言的内容。
单语言示例
IDOL™ 服务器聚合了一种语言的信息后,它对这种语言的内容就有了概念上的理解。
IDOL™ 服务器寻找查询的结果或是相关文档时,它将使用该查询或文档的概念来查找匹配度最高的结果。因此这些结果将使用相同的语言。
如下图所示,IDOL™ 服务器拥有 N 个使用同一种语言的数据库。
图 1:单语言系统中的操作
当使用英语在系统上对英语数据库发出查询时,IDOL™ 服务器将提取出查询中的英语概念并将其与英语内容中相关的概念进行匹配。因此得到的将是英语结果。在这种情况下如果使用西班牙语进行查询,将无法得到任何结果。因为使用英语的 IDOL™ 服务器无法对西班牙语的概念进行匹配。
多语言示例
为了使 IDOL™ 服务器能够自动理解多种语言的概念(如英语与西班牙语),用户就需要事先提供一个特殊的多语言数据库,其中包含了用这两种语言表达的一般性数据(如百科全书式的数据或是一般的国际新闻)。这个数据库只是用于进行训练,其中不需要包含准备查询的文档。
“训练文档”中包含两种语言的纯文本,两段纯文本互为对方的直接翻译。
这种多语言数据库让引擎能够一般性的理解用这两种语言表达的各种概念。之后引擎即可在内部使用该多语言数据库以处理查询或提供建议。
如下图所示,IDOL™ 服务器拥有 N 个数据库,这些数据库分别使用多语言数据库中的两种语言之一。
图 2:多语言系统中的操作
IDOL™ 服务器首先在多语言数据库中查找与查询匹配的概念,以了解这些概念在两种语言下的表达方式。之后其即可用这些概念来继续处理原查询。这样用一种语言发出的查询可自动得到两种语言的结果。
例如,您可以使用英语句子来对包含西班牙语数据的数据库进行查询,反之亦然。
请注意,这种方法使用的是基本概念的转换,而不是关键词的直接翻译。
例如,当对西班牙语数据库进行查询时:
图 3:英语/西班牙语示例
IDOL™ 服务器在英语-西班牙语数据库中查找与英语查询匹配的概念。IDOL™ 服务器将找到英语的匹配概念,不过由于英语-西班牙语数据库中的文档都是双语文档,所以所获得的既有英语概念,也有西班牙语概念。
如果用户接着对西班牙语数据库进行查询,那么引擎将通过所获得的西班牙语概念在西班牙语数据库中找出相关的文档。
所支持的语言
单字节/双字节语言 (SBDB)
在计算机中,字符通常可分为:
- 单字节: 一个字符用一个字节表示
- 双字节: 一个字符用两个字节表示
- 多字节: 单字节与双字节的组合
- Unicode: 每个字符使用 2 个或 2 个以上的字节 (UCS2),或是其他的变体,如每个字符使用 1 到 4 个字节的 UTF8
欧洲语言是单字节的,而某些亚洲语言使用多字节的编码方式,如日语的 Shift-JIS 字符集。Autonomy 的 IDOL™ 服务器可处理各种单字节与双字节字符集。
单词边界
信息是通过单词表达出来的,这些单词通过组合形成了某种概念。在大多数语言中单词很容易被辨别出来,因为在书面文字中单词之间用空格隔开。
但有些语言在书写时不使用空格来隔开单词,如泰语、日语、汉语、韩语等。一个句子通常包含连续的字符,以及为了便于阅读而添加的一些标点。只有通过上下文才能找出单独的单词。为了支持这类语言,Autonomy 使用了广为人知的第三方 API 来进行断句。
作为 Autonomy 核心技术的 IDOL™ 服务器不考虑内容所使用的语言,并且也不依赖于某种特定语言中所使用的符号。
架构
以下列出的调节步骤均是 IDOL™ 服务器在必要时内部进行的:
图 4:架构
支持的平台
Autonomy 支持:
- Microsoft Windows NT
- Microsoft Windows 2000
- SUN Solaris
- LINUX
- HP-UX
- 其他符合 POSIX 标准的 UNIX
应用示例
Autonomy 的软件被广泛应用以解决各种业务问题。如:
| 客户 | 语言 | 说明 |
| BBC 在线新闻站点 |
中文
阿拉伯语 |
追求创新、发展以及开拓精神的 British Broadcasting Corporation 在 20 世纪获得了很大的成功,为国内外上百万的观众与听众提供了娱乐、教育以及信息服务。Autonomy 的技术被选中以用于其新闻站点的中文与阿拉伯语部分。 |
图 5:BBC Online - 中文新闻 |
||
| 客户 | 语言 | 说明 |
| TOM.COM | 中文 | 亚洲电信业巨头 Hutchinson Whampoa 建立了第一批专门面向中文受众而设计的门户。这些为亚太地区的中文用户服务的门户将针对用户的兴趣与需要而自动进行个性化。它们将充分利用 Autonomy 的技术来让用户与网站的交流更为面向用户的兴趣。 |
图 6:Tom. com - 中文 Internet 门户 |
||
| 客户 | 语言 | 说明 |
| Yatack 电子商务网站 | 斯堪的纳维亚语 | Yatack 是使用斯堪的纳维亚语的电子商务网站。Autonomy 的技术使这家在线俱乐部能够提供最为个性化的在线购物体验,它能够自动理解客户的兴趣所在,从而相应地为客户提供购买指导。 |
图 7:Yatack - 斯堪的纳维亚语电子商务网站 |
||
其他示例
图 8:法语门户网站 - http://www.eurosport.fr/
图 9:意大利语购物网站 - http://www.kataweb.it/
图 10:德语新闻门户网站 - http://www.tomorrowbusiness.de/





















