政府

发改委

铁道部

公安部

安全部

国家知识产权局

信产部电信研究院

首都之窗

甘肃省政府

上海市信息中心

上海市徐汇区政府

上海市发改委

上海市小企业办

上海网宣办

青岛外宣办

电信

中国移动

电讯盈科

辽宁移动

江苏移动

湖北移动

河南联通

北京网通

金融

中国人民银行

银监会

信达资产

上海证券交易所

中保财险

能源

中海油

国家电力

媒体

新华社

CCTV

中国日报

中国华闻投资控股有限公司

上海证券报

外文出版局

企业

国航

朗讯科技

施耐德电气

济南钢铁

611所

General Motors

BP

Ford Motor Company

AstraZeneca

HSBC Investment Bank

DaimlerChrysler

CNN

General Electric

US Senate

Credit Suisse First Boston

Volkswagen

Hutchison 3G

UK Department of Trade & Industry

Credit Lyonnais

Siemens

AstraZeneca

Philip Morris

Bloomberg

Lloyds

Verizon

Sun Microsystems

AT&T

XEXCO

FIAT

US Department of Defense

Nestle

HP

US State Department

HSBC

General Dynamics

Hewlett Packard

US State Department

ABN Amro

Ingersoll-Rand

UBS Warburg

US State Department

Nestle

Nestle

Merrill Lynch

New York Stock Exchange

The Economist

France Telecom

New York Life Insurance

Boeing

Lafarge

Safeway

People's Republic of China's

Pfizer

Ministry of Agriculture

Nordea

Lloyds

Tesco

Pfizer

GlaxoSmithKline

Philips

The Coca Cola Company

Nestle

XEXCO

Royal & SunAlliance

Hutchison 3G

Intel

Sybase

BBC

Sprint

New York Life Insurance

Canon USA

T-Mobile

Novell

Ericsson

EDS

Philip Morris International

Royal & SunAlliance

Novartis

Credit Lyonnais

Sun Microsystems

British American Tobacco

Norsk Hydro

AstraZeneca

Henkel

Skanska

BP

BAE Systems

Kodak

The Royal Mail Group

US Department of Defense

Henkel

Bank of Montreal

MOL

Lloyds

Danske Bank

General Motors

BMW

Kronos Corporation

Fujitsu Technology Services

Ericsson

Zurich Financial Services

Accenture

Halliburton

BBC

Blue Cross/Blue Shield of Massachusetts

T-Mobile

Channel 4 Corporation

VHA

HM Revenue & Customs

Burges Salmon

Motorola

Sun Microsystems

British Telecom

Ferrari

Deloitte & Touche

PA Consulting

AT&T

US Army

UK Department of Trade & Industry

EMC Corporation

US Department of Commerce

Encana Corporation

ABN Amro

IEEE

Swiss Army

Hewitt Associates LLC

Hewlett Packard

Britvic Softdrinks

HEALTHvision

Hutchison 3G

Paramount

Lexmark

Hutchison 3G

US Department of Defense

JD Edwards

Ingersoll-Rand

AstraZeneca

General Electric

Macmillan Publishing

PricewaterhouseCoopers

Vodafone Omnitel

Nomura

US State Department

Reed Elsevier

Dow Chemical Company

Siemens Power Generation

Texas Instruments

XEXCO

Forrester Research

McData

Wall Street Journal

Lloyds

AstraZeneca

NASA

Nestle

Philips

SCA

Reuters

ITN

IBM NICA

Forbes.com

Nissan North America, Inc.

Toyota Motor

The McGraw-Hill Companies

Fox Sports

Society of Petroleum Engineers

Ericsson

US Department of Energy

European Commission

Telecom Italia

Harrah's

HSBC

HSBC

AXA

Sybase

General Motors

Napster

Philips

Oracle

Compuware

Olympus

ARM

BBC

Taylor & Francis

Federal Express

Nissan Motor

Milward Brown Precis

Federal Government of Canada

UK Home Office

HM Revenue & Customs

Hutchison 3G

Harvard Business School

BP

Britvic Softdrinks

MOL

Siemens

The McGraw-Hill Companies

Macmillan Publishing

Allianz Life Insurance Co

Swiss Army

Parliament of Singapore

VMS

XEXCO

Singapore Police Force

Siemens

US Department of Commerce

UK Department of Trade & Industry

Sony Music

GSA Advantage!

AstraZeneca

Kaiser Permanente

AstraZeneca

Sun Microsystems

Stanford Business School

Johns Hopkins

Philips

Wachovia

Standard Life Insurance

Raytheon

AstraZeneca

Commerzbank

Allstate Insurance

State of Washington

Danske Bank

Napa Valley County

Texas Department of Transportation

AT&T

American HomePatient

TIBCO

BP

Sharper Image

Xerox

Interwoven

Hutchison 3G

Philips

General Motors

America Online

Hutchison 3G

Lockheed Northrop Grumman

Dow Chemical Company

Draeger Medical

General Motors

Vodafone Omnitel

Sutter Health

Kenyan AIDS Clinic

University of Washington

Hewlett Packard

State of Minnesota

World Wildlife Fund

    公司    
    技术    
    产品    
    功能    
    解决方案    
    服务    
    行业应用    
    客户    
    OEMs    
    新闻和市场活动    
  
技术优势

与语言无关

作为 Autonomy 技术核心的概念匹配技术并不依赖于英语或是某种其他语言的语法结构。它处理字词时,是将其视为抽象的表义符号,并且通过其出现的情况来推导其含义,而不是根据呆板的语法定义来进行。俚语或是其他在语言方面的变化并不会对软件造成困扰。IDOL 服务器拥有“普通”英语模式的理解能力,但用户可针对任何一种语言(德语、西班牙语、葡萄牙语、阿拉伯语、意大利语、法语、日语、挪威语等)的模式来训练该引擎。

所面临的问题

随着经营者们越来越意识到让企业面向全球市场的价值,英语的主导地位也越来越受到挑战。他们认识到了用客户本地/自身的语言来进行交流的必要性,并且将业务国际化能扩大企业知识的范围,增加知识量。

在实施门户网站、电子商务服务或是企业知识管理系统时,经营者们都面临着国际化这一问题。

本白皮书讨论了 Autonomy 技术独立于语言种类的特点,它使得 Autonomy 能够支持世界范围内的各种语言,从而提供诸如以下的优势:

定义

简介

语言的定义是:“人类以一定的组合和模式使用声音以及文字符号,从而就思想与感情进行表达与交流。”

如该定义所示,人们以特定的模式使用语言来表述知识与信息这样的抽象概念。要想完全发挥存储在世界各地的知识库中信息的潜力,那么就应在全球范围内的用户群中分发/共享这些知识,而不考虑原先提供这些信息时所使用的语言。

现在大多数的企业需要管理的内容中都不仅仅包含一种语言。因此独立于语言种类的解决方案的重要性(及其价值)非常高。为了开辟其他国家中的市场,企业需要使用另一种语言来提供新的以及现有的信息,但是企业已无法接受这一过程的成本。Autonomy 的技术及其架构在这一方面非常理想。它拥有完全模块化的设计,能够根据内容进行调节,从而达到快速利用任何时间任何语言的信息这一目标。

关键因素

国际化指的是开发程序核心时,保证其功能与代码编写不会依赖于某一种语言的特征。

当开发处理信息的软件时,存在以下的关键问题

Autonomy 处理语言的方法

Dynamic Reasoning Engine™ 基于的是高级模式匹配技术(非线性自适应数字信号处理),它能够通过高性能的概率建模技术来提取出文档中的要素,从而判定表达文字含义的特征。由于其基础是概率建模技术,因此它不需要任何形式的语言解析操作或是字典。处理字词时,IDOL 服务器将其视为抽象的表义符号,并且通过其出现的情况来推导其含义,而不是根据呆板的语法定义来进行。

随着时间的推移,IDOL 服务器能通过统计来理解内容中出现的模式。处理过的有关某一特定类型(如法律条款、药物产品的发展、技术等)的信息越多,IDOL 服务器就越容易理解这些主题。而新的语言对于 IDOL 服务器来说,只不过是需要收集足够的材料以进行学习的另一种信息“类型”而已。因此用户在 IDOL 服务器中可以将多种语言的信息混合,前提是以某种语言表达的信息量足以让 IDOL 服务器进行理解。

所使用的语言不会影响 IDOL 服务器提取出的概念的准确性。因为无论面对哪种语言,所使用的基础算法是一样的。

对依赖于语言种类的功能的使用

虽然 Autonomy 的技术完全独立于语言种类,但有时使用依赖于语言种类的功能有助于提升企业业绩。Autonomy 提供了以下能够优化系统的功能:

Autonomy 本身并不需要忽略列表和词干提取功能,因为其进行的统计分析一般能判定这些单词的重要性及其之间的关系。但忽略列表和词干提取规则允许 IDOL 服务器在最初的配置时忽略虚词并将一组单词作为一个单词处理,从而降低存储空间的需求和处理时间。

对于常用语言,Autonomy 提供了标准的忽略列表和词干提取算法。

Autonomy 技术带来的益处

全球化的实施

有越来越多的内容以某种特定的语言/某一特定数目的语言提供,并且越来越多的用户使用英语以外的语言。尤其是在世界各地越来越多的公司将信息放到网上并在线使用它们以进行电子商务这样的环境下。要使全球化国际化的策略成功,企业就需要业界领先的功能,因此他们对基础技术提出了严格的要求。

Autonomy 的技术及其架构在这一方面非常理想。它拥有完全模块化的设计,能够根据内容进行调节,从而达到快速利用任何时间任何语言的信息这一目标。

拓展形成跨语言的系统

Autonomy 的核心技术可用于建立跨语言的系统。举例而言,这允许用户在查看英文文档时,获得有关英语以及西班牙语的类似信息的建议。

Dynamic Reasoning Engine™ 能够在多种语言之间建立联系。为此用户需要准备一个用于进行训练的数据集,其中包含使用所需语言的文档。在理想情况下,其中每一段文字都是另一段的直接翻译。此外还可以使用电子词典。然后该跨语言的内容将被输入 IDOL 服务器的数据库,引擎将借此形成对两种语言中所涉及概念的一般性理解。数据库建立完毕后,IDOL 服务器即可在多种语言的词语之间建立联系,使其能够同时检索多种语言的内容。

单语言示例

IDOL™ 服务器聚合了一种语言的信息后,它对这种语言的内容就有了概念上的理解。

IDOL™ 服务器寻找查询的结果或是相关文档时,它将使用该查询或文档的概念来查找匹配度最高的结果。因此这些结果将使用相同的语言。

如下图所示,IDOL™ 服务器拥有 N 个使用同一种语言的数据库。

图 1:单语言系统中的操作

当使用英语在系统上对英语数据库发出查询时,IDOL™ 服务器将提取出查询中的英语概念并将其与英语内容中相关的概念进行匹配。因此得到的将是英语结果。在这种情况下如果使用西班牙语进行查询,将无法得到任何结果。因为使用英语的 IDOL™ 服务器无法对西班牙语的概念进行匹配。

多语言示例

为了使 IDOL™ 服务器能够自动理解多种语言的概念(如英语与西班牙语),用户就需要事先提供一个特殊的多语言数据库,其中包含了用这两种语言表达的一般性数据(如百科全书式的数据或是一般的国际新闻)。这个数据库只是用于进行训练,其中不需要包含准备查询的文档。

“训练文档”中包含两种语言的纯文本,两段纯文本互为对方的直接翻译。

这种多语言数据库让引擎能够一般性的理解用这两种语言表达的各种概念。之后引擎即可在内部使用该多语言数据库以处理查询或提供建议。

如下图所示,IDOL™ 服务器拥有 N 个数据库,这些数据库分别使用多语言数据库中的两种语言之一。

图 2:多语言系统中的操作

IDOL™ 服务器首先在多语言数据库中查找与查询匹配的概念,以了解这些概念在两种语言下的表达方式。之后其即可用这些概念来继续处理原查询。这样用一种语言发出的查询可自动得到两种语言的结果。

例如,您可以使用英语句子来对包含西班牙语数据的数据库进行查询,反之亦然。

请注意,这种方法使用的是基本概念的转换,而不是关键词的直接翻译。

例如,当对西班牙语数据库进行查询时:

图 3:英语/西班牙语示例

IDOL™ 服务器在英语-西班牙语数据库中查找与英语查询匹配的概念。IDOL™ 服务器将找到英语的匹配概念,不过由于英语-西班牙语数据库中的文档都是双语文档,所以所获得的既有英语概念,也有西班牙语概念。

如果用户接着对西班牙语数据库进行查询,那么引擎将通过所获得的西班牙语概念在西班牙语数据库中找出相关的文档。

所支持的语言

单字节/双字节语言 (SBDB)

在计算机中,字符通常可分为:

欧洲语言是单字节的,而某些亚洲语言使用多字节的编码方式,如日语的 Shift-JIS 字符集。Autonomy 的 IDOL™ 服务器可处理各种单字节与双字节字符集。

单词边界

信息是通过单词表达出来的,这些单词通过组合形成了某种概念。在大多数语言中单词很容易被辨别出来,因为在书面文字中单词之间用空格隔开。

但有些语言在书写时不使用空格来隔开单词,如泰语、日语、汉语、韩语等。一个句子通常包含连续的字符,以及为了便于阅读而添加的一些标点。只有通过上下文才能找出单独的单词。为了支持这类语言,Autonomy 使用了广为人知的第三方 API 来进行断句。

作为 Autonomy 核心技术的 IDOL™ 服务器不考虑内容所使用的语言,并且也不依赖于某种特定语言中所使用的符号。

架构

以下列出的调节步骤均是 IDOL™ 服务器在必要时内部进行的:

图 4:架构

支持的平台

Autonomy 支持:

应用示例

Autonomy 的软件被广泛应用以解决各种业务问题。如:

客户 语言 说明
BBC 在线新闻站点 中文
阿拉伯语
追求创新、发展以及开拓精神的 British Broadcasting Corporation 在 20 世纪获得了很大的成功,为国内外上百万的观众与听众提供了娱乐、教育以及信息服务。Autonomy 的技术被选中以用于其新闻站点的中文与阿拉伯语部分。

图 5:BBC Online - 中文新闻

客户 语言 说明
TOM.COM 中文 亚洲电信业巨头 Hutchinson Whampoa 建立了第一批专门面向中文受众而设计的门户。这些为亚太地区的中文用户服务的门户将针对用户的兴趣与需要而自动进行个性化。它们将充分利用 Autonomy 的技术来让用户与网站的交流更为面向用户的兴趣。

图 6:Tom. com - 中文 Internet 门户

客户 语言 说明
Yatack 电子商务网站 斯堪的纳维亚语 Yatack 是使用斯堪的纳维亚语的电子商务网站。Autonomy 的技术使这家在线俱乐部能够提供最为个性化的在线购物体验,它能够自动理解客户的兴趣所在,从而相应地为客户提供购买指导。

图 7:Yatack - 斯堪的纳维亚语电子商务网站

其他示例

图 8:法语门户网站 - http://www.eurosport.fr/

图 9:意大利语购物网站 - http://www.kataweb.it/

图 10:德语新闻门户网站 - http://www.tomorrowbusiness.de/