政府

发改委

铁道部

公安部

安全部

国家知识产权局

信产部电信研究院

首都之窗

甘肃省政府

上海市信息中心

上海市徐汇区政府

上海市发改委

上海市小企业办

上海网宣办

青岛外宣办

电信

中国移动

电讯盈科

辽宁移动

江苏移动

湖北移动

河南联通

北京网通

金融

中国人民银行

银监会

信达资产

上海证券交易所

中保财险

能源

中海油

国家电力

媒体

新华社

CCTV

中国日报

中国华闻投资控股有限公司

上海证券报

外文出版局

企业

国航

朗讯科技

施耐德电气

济南钢铁

611所

General Motors

BP

Ford Motor Company

AstraZeneca

HSBC Investment Bank

DaimlerChrysler

CNN

General Electric

US Senate

Credit Suisse First Boston

Volkswagen

Hutchison 3G

UK Department of Trade & Industry

Credit Lyonnais

Siemens

AstraZeneca

Philip Morris

Bloomberg

Lloyds

Verizon

Sun Microsystems

AT&T

XEXCO

FIAT

US Department of Defense

Nestle

HP

US State Department

HSBC

General Dynamics

Hewlett Packard

US State Department

ABN Amro

Ingersoll-Rand

UBS Warburg

US State Department

Nestle

Nestle

Merrill Lynch

New York Stock Exchange

The Economist

France Telecom

New York Life Insurance

Boeing

Lafarge

Safeway

People's Republic of China's

Pfizer

Ministry of Agriculture

Nordea

Lloyds

Tesco

Pfizer

GlaxoSmithKline

Philips

The Coca Cola Company

Nestle

XEXCO

Royal & SunAlliance

Hutchison 3G

Intel

Sybase

BBC

Sprint

New York Life Insurance

Canon USA

T-Mobile

Novell

Ericsson

EDS

Philip Morris International

Royal & SunAlliance

Novartis

Credit Lyonnais

Sun Microsystems

British American Tobacco

Norsk Hydro

AstraZeneca

Henkel

Skanska

BP

BAE Systems

Kodak

The Royal Mail Group

US Department of Defense

Henkel

Bank of Montreal

MOL

Lloyds

Danske Bank

General Motors

BMW

Kronos Corporation

Fujitsu Technology Services

Ericsson

Zurich Financial Services

Accenture

Halliburton

BBC

Blue Cross/Blue Shield of Massachusetts

T-Mobile

Channel 4 Corporation

VHA

HM Revenue & Customs

Burges Salmon

Motorola

Sun Microsystems

British Telecom

Ferrari

Deloitte & Touche

PA Consulting

AT&T

US Army

UK Department of Trade & Industry

EMC Corporation

US Department of Commerce

Encana Corporation

ABN Amro

IEEE

Swiss Army

Hewitt Associates LLC

Hewlett Packard

Britvic Softdrinks

HEALTHvision

Hutchison 3G

Paramount

Lexmark

Hutchison 3G

US Department of Defense

JD Edwards

Ingersoll-Rand

AstraZeneca

General Electric

Macmillan Publishing

PricewaterhouseCoopers

Vodafone Omnitel

Nomura

US State Department

Reed Elsevier

Dow Chemical Company

Siemens Power Generation

Texas Instruments

XEXCO

Forrester Research

McData

Wall Street Journal

Lloyds

AstraZeneca

NASA

Nestle

Philips

SCA

Reuters

ITN

IBM NICA

Forbes.com

Nissan North America, Inc.

Toyota Motor

The McGraw-Hill Companies

Fox Sports

Society of Petroleum Engineers

Ericsson

US Department of Energy

European Commission

Telecom Italia

Harrah's

HSBC

HSBC

AXA

Sybase

General Motors

Napster

Philips

Oracle

Compuware

Olympus

ARM

BBC

Taylor & Francis

Federal Express

Nissan Motor

Milward Brown Precis

Federal Government of Canada

UK Home Office

HM Revenue & Customs

Hutchison 3G

Harvard Business School

BP

Britvic Softdrinks

MOL

Siemens

The McGraw-Hill Companies

Macmillan Publishing

Allianz Life Insurance Co

Swiss Army

Parliament of Singapore

VMS

XEXCO

Singapore Police Force

Siemens

US Department of Commerce

UK Department of Trade & Industry

Sony Music

GSA Advantage!

AstraZeneca

Kaiser Permanente

AstraZeneca

Sun Microsystems

Stanford Business School

Johns Hopkins

Philips

Wachovia

Standard Life Insurance

Raytheon

AstraZeneca

Commerzbank

Allstate Insurance

State of Washington

Danske Bank

Napa Valley County

Texas Department of Transportation

AT&T

American HomePatient

TIBCO

BP

Sharper Image

Xerox

Interwoven

Hutchison 3G

Philips

General Motors

America Online

Hutchison 3G

Lockheed Northrop Grumman

Dow Chemical Company

Draeger Medical

General Motors

Vodafone Omnitel

Sutter Health

Kenyan AIDS Clinic

University of Washington

Hewlett Packard

State of Minnesota

World Wildlife Fund

    公司    
    技术    
    产品    
    功能    
    解决方案    
    服务    
    行业应用    
    客户    
    OEMs    
    新闻和市场活动    
  

关键词和布尔表达式搜索

  关键词和布尔表达式搜索是最为常见的信息检索方式,它们要求用户在文本框中准确输入其需要查找的字词。提交搜索后,包含搜索词的文档就将被列出来。

准确性和内容

  当处理大量数据并且用户也完全明了其需要寻找的特定信息时,关键词和布尔值搜索的准确性是可以保证的。Autonomy 对这种方法也提供完全的支持。但是,尽管关键词搜索能够找出文档中匹配的字词,它却不能告诉我们整篇文档与所关注的主题之间有多大的相关程度。

请看以下的内容:

  “那晚我走在一条街上。这条街又长又黑。等我走到街的尽头时,有个抢劫犯跳出来袭击了我。”

  虽然句中多次出现“街”,但整段内容描述的却是一起犯罪事件。用关键词和布尔值方法搜索“街”时,该段内容很可能会被返回到搜索结果中,因此,这些方法有时并不准确。

   针对这一点,关键词搜索方法常采用权重来对搜索结果进行排列。当对比关键词出现在不同位置的 两篇文档,其中一篇关键词出现在文档中的显著位置,例如标题,另一篇关键词出现在文档末尾, 搜索方法会认为前者的重要性比后者高,并给予其较高的权重值。此外关键词出现多次的文档得到的权重值也会比较高。

  对于格式规范一致的数据,例如医学报告来说,权重关键词搜索技术表现会有所改善,当然 Autonomy 对此亦提供全面支持。但从另一个角度说,这种方法依然没有考虑字词的所处的语境以及文字所论述的主题,它排序的依据是:如果字词位于标题中或是常常被提到,那么整个文档的相关度必然较高。而 Autonomy 则通过精密的模式匹配技术来从语境上理解文档并提供概念类似的文档,无需依赖于关键词,从而避免了这一问题。

人工调节

  有的关键词搜索引擎提供了人工调节结果的方法,包括复杂的布尔值表达式、关键词标记、关键词关联及/或类别。同样,Autonomy 也支持这些广为使用的技术。

  但是无论关键词搜索引擎如何复杂,它的本质也只是查找匹配字词。这需要人工管理关键词的关联或类别。

  举例而言:

  关键词方法需要最终用户能够以复杂的特定表述方式(亦称为布尔表达式)来编写查询内容。这意味着用户需要掌握晦涩的搜索“规则”。


  一开始的规则可能是这样的: <以色列AND 巴基斯坦> <以色列AND 巴基斯坦> OR <以色列 OR 巴基斯坦> <以色列 OR 巴基斯坦>

  这看上去好像足够了。但是如果用户特别关注以色列和巴勒斯坦之间冲突的升级,那么上述规则返回的文档有可能与这个关注内容无关,例如:

  “以色列:20世纪初居住在巴基斯坦的犹太人数量很少;该数字在1845年为12,000,到1914年增长了85,000。”

  此外,有些文章在编写时都假设读者已经了解一些背景资料,因此,可能并不包含上面的关键词“以色列”或“巴勒斯坦”,例如:

  “针对这次自杀式攻击,阿拉法特先生宣布在加沙和西岸各地实行紧急状态,并且逮捕了75名激进分子。”

  为了在搜索结果中包含这些文档,必须对规则进行修改:

  <阿拉法特 OR "自杀式攻击" OR "紧急状态" OR "西岸">

  但是,根据这种规则搜索,其结果也会返回其它自杀性袭击信息,因此,可能会导致遗漏与主体直接相关的有价值的文档,例如:相关团体对此的反应(如美国政府)。因此,必须对规则进行多次修改,确保搜索之返回相关结果。

  <("阿拉法特" OR "沙龙" OR "布什") AND ("自杀式攻击" OR "紧急状态" OR "炸弹攻击") AND ("以色列" OR "巴勒斯坦" OR "西岸" OR "耶路撒冷")>

  这只是最初的规则。如果我们再考虑需要对各种类别进行的持续不断的维护,那么情况将更加复杂。

  上面的例子需要文档包含全部三个类别(姓名、暴力事件以及位置)中的匹配内容。如果文档并未包含全部三种内容,那么查询就会忽略这些文档。因此,这种方法需要详尽深入的人工劳动,而得出结果的准确性仍然无法保证。相反,Autonomy 可以自动了解文档的主题,在无需用户进行任何手动输入的情况下为他们提供相关材料。

学习能力

  关键词搜索引擎不能随着使用进行“学习”。您也很难通过提供示例来查找内容。如用户在使用“与这个类似”功能时,在搜索框中提供一段示例文档,想要找到与这段文档描述的概念类似的文档——这样将增加查询关键词的个数,因为它是根据示例文档中最经常出现的术语而确定搜索关键词的。然后再根据该关键词进行匹配,将含有该关键词的文档反馈给用户。Autonomy 在支持这种方法的同时,其技术能够根据示例文档的概念找出匹配文档,因此,更为有益。

  举例而言,某用户关心曼联足球俱乐部的经济状况。那么如果使用传统的“与这个类似...”功能,他可能会得到有关其他运动项目的文章,例如高尔夫球、网球甚至橄榄球。但 Autonomy 能够了解用户关心的是某个特定俱乐部的经济状况,从而提供相应的文档。

Autonomy 的方法

  Autonomy 避免了类似的问题,它能够匹配概念,而不仅是匹配简单的关键词,当然它也能执行标准布尔文本查询。Autonomy 会考虑术语出现的语境,消除任何错误的信息,同时还能捕获那些本不包含特定术语,但是却包含相关概念的文档。