重之余,为本书承担了校审工作。感谢儿子
元敬昼夜加班承担了文稿的录入、打印和形成最终文件的工作。最后,还要对我在海内外的一些学生和战友说,感谢你们在HNC艰苦探索时期所奉献的才华和精力,我永远想念你们。
黄曾阳
1998年9月8日
于中国科学院声学研究所
HNC理论概要*
HNC是“Hierarchical
Network Concepts(概念层次网络)”的简称,它是面向整个
自然语言理解的理论框架。这个理论框架是以语义表达为基础的,它对语义的表达是概念化、层次化、网络化的,所以称它为
概念层次网络理论。
1 HNC理论的形成
自然语言处理作为人工智能的一个分支,已有40年的发展历程,形成了
计算语言学这一跨接语言、信息、认知科学和计算机技术的边缘学科。它的发展主要围绕以下三个方面:
1、自然语言的表述和处理模式;
2、自然
语言知识的表示、获取和学习;
3、研制开发自然语言的应用系统。
在自然语言的表述和处理模式方面,源于印欧语系的语法学和
句法分析一直居于主导地位。
八大词类、六种句子成分、
短语结构和
句法树成为语言分析的基本概念和依托。对于这一传统分析模式,仅在20世纪70年代,曾一度受到
菲尔墨(Fillmore)和
山克(Schank)的质疑和挑战。80年代以来,
语料库语言学的兴起使人们对
统计模式产生了过高的期望,以致忽视了菲-山挑战的实质意义。
参见人工智能点评
自然语言传统分析模式(含
统计模式)的根本弱点何在?一言以蔽之,它不是描述语言感知过程的适当模式。
面对语音流的
五重模糊(发音模糊、
音词转换模糊、词的多义模糊、
语义块构成的分合模糊、指代冗缺模糊),面对文字流后三重模糊,大脑的语言感知应付裕如,表现了强大的
解模糊能力,
自然语言处理技术当前无从望其项背。
近20年来,
自然语言处理囿于传统模式,不图突破。
参见批判提示但是,它所面临的所有重大课题,从
音词转换到
机器翻译,从
全文检索、信息抽取到智能阅读助手,都在呼唤语言表述及处理新模式的诞生;呼唤上下文联想处理向“知其所以然”的语义理解前进;呼唤向语言感知方向靠拢。随着网络时代的来临,这一呼唤的迫切性和严峻性在与日俱增。
响应这一呼唤才意味着真正的突破,但突破的契机何在?悲观论者认为:语言感知过程
p3密切依附于大脑中万亿神经元的
神经网络,依附于浩瀚无垠的
世界知识海洋,在对这个“网络”和“海洋”的奥秘未作充分揭示之前,模拟语言感知过程是不现实的。
背景知识:1964年,美国科学院成立语言自动处理咨询委员会(简称ALPAC委员会),调查机器翻译的研究情况,并于1966年11月公布了一个题为《语言与机器》的报告,简称ALPAC报告,对机器翻译采取否定的态度,报告宣称:“在目前给机器翻译以大力支持还没有多少理由。”报告还指出,机器翻译研究遇到了难以克服的“语义障碍”。在ALPAC报告的影响下,许多国家的机器翻译研究进入低潮,许多已经建立起来的机器翻译研究单位遇到了行政上和经费上的困难,在世界范围内,机器翻译的热潮突然消失了,出现了空前萧条的局面。
摘自《自然语言的计算机处理》p408
,冯志伟,1996年10月
事情果真是如此悲观的么?
HNC理论对此进行了8年的探索,结论是,突破的契机是存在的,其要点是:
1、要把自然语言所表达的知识划分为概念、语言和常识三个独立的层面,对不同层面采取不同的知识表示策略和学习方式,形成各自的知识库系统。
2、建立网络式概念基元符号体系,即概念表述的数学表示式。这个符号体系或表示式应具有语义
完备性,能够与自然语言的词语建立起语义映射关系,同时,它必须是高度数字化的,每一个符号基元(每个字母或数字)都具有确定的意义,可充当概念联想的激活因子。这个符号体系就是下文将要详细介绍的
三大语义网络及
五元组等,它是计算机把握并理解语言概念的基本前提。
3、建立语句的语义表述模式,即语句表述的数学表示式。这一模式的
完备性应表现为可表述自然语言任何语句的语义结构,即
乔姆斯基所提出的
语言深层结构。这个
深层结构就是下文将要简要介绍的
句类格式。以
句类格式为基点的语句分析叫做
句类分析,是对大脑语言感知过程的初步模拟,在上述
五重模糊或三重模糊的消解方面,理论上,
句类分析应能接近甚至超过常人的水准。
上述三点是形成
HNC理论的基本背景。
但是,
解模糊处理仅仅是
自然语言理解的万里长征的第一步,仅涉及HNC理解处理系统(
本文第三部分有简略介绍)的部分模块。作为自然语言的一种表述和处理模式,HNC是开放的,并处于不断完善和深化的过程,在这一过程中,更需要不同学科的合作,特别是信息处理与语言学的合作,在8年的艰苦探索过程中作者深深感到这一合作的迫切性。现在这一合作的势态已初步形成,正是在合作者的鼓励和具体推动下(
林杏光1997),
HNC理论首次公开发表论文,主要目的在于扩大这一合作的势态。
2 HNC理论的基本内容
人对语言的理解本质上是一种认知行为,如果能描述大脑认知结构的具体模式,计算机就可以运用这些模式对自然语言进行理解处理。我们把认知结构分为
局部和
全局两类联想脉络,认为对联想脉络的表述是语言深层(即语言的语义层面)的根本问题。什么是
局部联想和
全局联想呢?简单地说,
局部联想是指词汇层面的联想,
全局联想是指语句及篇章层面的联想。更简单地说,理解句子有两种思路:一是从组成句子的词语入手,一是从句子的整体结构和上下文
语境入手,前者就是
局部联想,后者就是
全局联想。当然,人在理解句子的时候,这两种联想不是截然分开的,而是并存的、相互作用的,计算机理解语言也应该综合运用这两类联想脉络。HNC的出发点就是通过建立两类联想脉络来“帮助”计算机理解自然语言。下面就分别介绍HNC建立的两类联想脉络。
p4
2.1 局部联想脉络——五元组和语义网络
局部联想是词汇层面的联想,自然语言的词汇是用来表达概念的,因此,HNC建立的
局部联想脉络体现为一个
概念表述体系,这个
概念表述体系可以简单概括如下:把概念分为
抽象概念和
具体概念,对
抽象概念用
五元组和
语义网络来表达,对
具体概念采取
挂靠展开近似表达方法。
概念有
抽象与
具体之分。在一般人看来,
抽象概念总是比
具体概念难于把握,中文信息处理界已有的汉语语义分类系统,其内容主要是对比较容易把握的
具体概念的分类,这样的语义分类系统没有摆脱对客观事物进行科学分类的束缚,对
抽象概念则几乎束手无策。
参见批判提示实际上,从深层来讲,
抽象概念比
具体概念更具有
基元性、系统性,更容易表达;
具体概念是客观存在物在人的思维中的一种直接反映,它里面包含了许多
世界知识,而对
世界知识是很难进行详尽表达的。所幸的是,人对
具体概念理解和认识的深度可以比
抽象概念浅,所以可以采取实用原则,“不求甚解”。
HNC理论侧重于
抽象概念的表达。
HNC理论通过
五元组和
语义网络层次符号来完整地表达
抽象概念,前者表达
抽象概念的外在表现,后者表达
抽象概念的内涵。
任何一个概念都有需要从不同侧面予以表达,这种现象叫做
概念的多元性表现。
具体概念的
多元性表现十分复杂,难以给出规范化的表达,
抽象概念则有所不同,它的
多元性表现在自然语言中有明显的迹象,这就是词性现象。印欧语系的词根或具有词根特色的词,可以加上不同的后缀分别构成动词、名词、形容词和副词,这种词性的转换就是
抽象概念多元性的生动表现,也就是说,词根相同词性不同的词是对同一概念不同侧面的表达。汉语对
抽象概念的
多元性表现则没有相应的形式标志,而往往是同一个词兼有名词、动词、形容词、副词中的几个属性。汉语的词性模糊现象(即无形态变化)和西语以形态变化表现不同词性的现象都是
抽象概念多元性的生动表现,形态变化的有无只是一种形式,本质在于
抽象概念本身具有这种
多元性表现的固有特征。
那么,
抽象概念多元性表现的“多”是一个模糊的“多”,这是一确定的“多”呢?或者说,能否给以规范化的表达?或者再换一个说法,这个
多元性表现的“多”是否存在某些
基元(primitive)呢?答案是肯定的。
抽象概念需要从动态、静态、属性、值和效应五个侧面加以表达,这就是
抽象概念的
五元组特性,简记为:(v,g,u,z,r
)特性,它们是
抽象概念多元性表现的
基元。任何
抽象概念都具有的
五元组特性,即都需要从五个侧面加以表达,不过,对某个
抽象概念各个侧面的表达,自然语言中未必都有相应的词语,而且不同语种间存在着差别。反过来,自然语言中的一个表达
抽象概念的词语必定是从
五元组中的某个或某几个侧面来表达某个
抽象概念。例如,“思考、思维、想法”就是分别从
五元组的vg,g,r侧面对同一概念内涵的表达。
五元组是词性的本质内容,是词性的
基元。所以,不必为汉语词汇的大量兼类现象感到困惑。
为表达
抽象概念的内涵,HNC设计了
三大语义网络:
基元概念语义网络、
基本概念语义p5网络和
逻辑概念语义网络。
语义网络是树状的分层结构,每一层的若干节点分别用数字来表示,网络中的任一个节点都可以通过从最高层开始、到该节点结束的一串数字唯一地确定,这个数字串叫做层次符号。
三大语义网络是
抽象概念的三大
聚类。
基元概念语义网络的一级节点分为两大类:一类是
主体基元概念,另一类是
复合基元概念。
主体基元概念有6个一级节点,分别是作用、过程、转移、较应、关系、状态,它们构成
作用效应链。什么是
作用效应链?
作用效应链反映一切事物的最大共性。作用存在于一切事物的内部和相互之间,作用必然产生某种效应,在达到最终效应之前,必然伴随着某种过程或转移,在达到最终效应之后,必然出现新的关系或状态。过程、转移、关系和状态也是效应的一种表现形式。新的效应又会引发新的作用,如此循环往复,以至无穷,这就是宇宙间一切事物存在和发展的基本法则,也是语言表达和概念推理的基本法则。
这6个环节的源头是作用,结果是效应。自然语言的主要内容就是对这六个环节进行局部和总体的具体表述,我们对
句类(见下文)的划分就是以此为标准的(这里顺便说明一下,
山克的“
概念从属理论”主要考虑了“转移”这一个环节,我们对“转移”二级节点的设计就
部分吸收了“
概念从属理论”的主要结果)。
作用效应链既是用于表达概念的
语义网络的核心,又是划分
句类的标准,换句话说,它既是
局部联想脉络的基础,又是
全局联想脉络的基础,两个联想脉络通过它联系起来,所以,在一定意义上可以说
作用效应链是HNC的理论基础。
复合基元概念主要涉及人类活动,这是因为,自然语言是人类的交际工具,其主要表述对象是人类活动而不是自然现象。
复合基元概念总共设置了8个一级概念节点,根据人类活动的
语境特征划分为三个层次,即生理本能活动、一般理智活动和社会性活动。
逻辑概念语义网络分为两类:一类是
语言逻辑概念,大体上相应于汉语的虚词,有11个一级概念节点,分为语义块区分标志符、语义块组合标志符、语义块及句间关系说明等三类。这11个一级节点的划分主要基于它们对
语义块感知及
句类辨识的作用,面不是它们的语法特性。另一类是
基本逻辑概念,有两个一级概念节点:比较和基本判断。
HNC
语义网络的设计思想有
两个来源:一是
奎廉(Quillian)的
语义网络理论、
菲尔墨
的
格语法和
山克的
概念从属理论;二是汉语的“
字义基元化,词义组合化”现象。第一个来源提出了“
语义基元”的杰出思想并暗含着“
总体表述”的宏伟目标,第二个来源提供了
语义基元的宝贵原料。汉语字少词多,仅用几千个汉字加以组合就构成许多的词。几千年来,汉语随着社会的发展而发展,新词不断增加,但组成词语的汉字却几千年很少变化。汉字字义的
基元化和汉语词义的组合化是一个伟大的宝藏,HNC
语义网络的形成深深受益于这一宝藏的启发。
三大语义网络为表达
抽象概念的内涵而设计,最终将用它来描写自然语言词汇的语义,
p6但
网络本身却不是直接面向语言词汇的,而是面向构成词汇语义的
概念基元的,适用于任何语种。
网络上的任何节点本身都是概念,但这些概念只是庞大的概念海洋里的“元素”,即它们是
概念基元,它们通过不同方式的组合而构成各种各样的、无数的概念,HNC定义了8种
组合结构,用以表达
复合概念。
三大语义网络的设计,可以解决现代语义学中的两个难题。一是
义素分析法的难题。
义素分析法试图用分解的方法、用
义素(
语义原子)来描述词汇语义,它对一些词的意义进行了成功的描写,但是,语言的
义素到底有多少,
义素分析法没找到答案,因而不能落实到对全部语言词汇的描写中。
三大语义网络的各个节点,即
概念基元,大体上相当于
义素,可以用来描写任何语言的所有词汇语义。
语义网络采用了分层的灵活结构,可以从高层到底层根据需要不断往下设置节点,而由于有上层的控制又不会零乱,从而解决了
义素分析法的难题。二是
语义场的难题。
语义场理论看到了语汇语义的
关联性和系统性,但是,语言中到底有多少个
义场,
义场该怎样划分,
义场之间、
义场内部都是怎样的关系,对这些问题理论都没能解答。
三大语义网络建立了语言深层概念的
网络,它是一个整体的设计,是一个完整的系统,它各个节点下的
网络都形成相关联的概念的
聚类,这些
聚类就相当于
语义场。更重要的是,通过
语义网络,
义场内部、
义场之间都建立了联系,而且这各种各样的联系都可以通过层次符号显式地表达出来,从而使计算机能够掌握和操作。
五元组符号和
语义网络的层次符号的适当组合可以实现对
抽象概念的完整表达。这种表达方式能够显式地表达出自然语言
概念之间的关联性,从而有助于计算机把握和理解。例如,“精神-振奋、无私-奉献、慷慨-就义、锦绣-山河、远大-前程、
承担-责任、召开-会议”
精神g714、振奋v714em1、无私uvc3a2+u011、奉献vc3a2+u011、慷慨
gud02c33;gu9431c33;gu714y
、就义vb02+v146、锦绣xj2-0、山河
wj2-0
、远大ju221、前程
(gr10a8;gr910a8)、
承担vc139、责任u139、召开vc3959、会议
gc3959
参见HNC符号实例集1这些词语间的优先搭配在自然语言中是“理所当然”的,把这些搭配中的词用
五元组和层次符号表示,各个搭配中的前后词语就会具有相同或相近的层次符号,而只是
五元组符号不同,从而使它们之间搭配的“理所当然”得到显式的体现。可见,用
五元组和
语义网络层次符号表达语言概念的方法可以解决语义搭配(或称
语义约束)的难题。传统的词性搭配不能解决语义问题,动词后可与名词搭配,但“动+名”结构根本无法保证语义的正确,这种语法正确、语义荒谬的困难必须借助
语义约束来解决,但
语义约束一直找不到表达和把握的手段。
三大语义网络完成了
概念之间关联性的设计,找到了解决
语义约束问题的根本途径。
对
概念关联性的表达是
语义网络的首要目标。
概念基元的首要价值与其说是给出
复合概念的精确表示,不如说是给出
概念关联性知识和联想脉络的线索。
自然语言理解的中心任务是
解模糊,如同音模糊消解、一词多义模糊消解等,这些模糊的消解统称为
多义选一处理。对自然语言词汇的
多义选一处理是人类理解自然语言中最频繁、最基本的操作。对这一操作过程的形式模拟不在于并行处理或快速计算,而在于以什么巧妙的方式完成大量
语义距离(
语义关联性)的计算
参见存疑录。层次符号的构造方式把最频繁、最基本的
语义距离计算变成了对层次符号的简单逐层比较。这是HNC用
语义网络层次符号表达概念的基本出发点。层次符号是一种灵活的分层结构,它到任一层都代表一个概念,至于这个(些)概念与相应的语言概念之间,究竟谁是谁的近似,已无关紧要。重要的是,层次网络符号对概念的
局p7部联想脉络给出了明确的表示,便于计算机把握
概念之间的关联性。
语义网络层次符号的设计为计算机理解自然语言的语义提供了有力的手段。当然,在工程实现上首先要用
语义网络层次符号完成对自然语言词汇语义的描写,这是一项浩大而艰巨的工程,但这个瓶颈问题跟过去相比已有了本质的不同,过去缺乏语义描写的完备手段,现在手段已备,剩下的只是工作量的问题。
下面简单说明对
具体概念的表达。一般来说,
具体概念的精确表达要比
抽象概念困难得多,因为它涉及到许多
世界知识,这些
世界知识是人类认识积累的结果。但另一方面,人在理解自然语言过程中对
具体概念的认识深度可以比
抽象概念浅得多,
天生的盲人仍能同常人一样掌握自然语言,道理就在这里。所以,对
具体概念的表达,应采取大胆近似的方案,这是对
具体概念进行层次符号设计的基本出发点。HNC用“类别符号+
挂靠”的方式近似地表达
具体概念。
具体概念的类别,从语言表达的角度来看,先分为物、人、物性三类(分另用符号
w,p,x
表示)比较合理。物有自然物与人工物之分,人工物又有现代与传统、物质与精神产品之分,当然还可以有各种各样的分类标准。人和物性也同样存在子类划分问题。在处理
具体概念的分类问题时,不宜照搬自然科学的分类方法,HNC的着眼点主要是引起概念的联想,而不是分类的科学性。
参见批判提示
对
具体概念的内涵,HNC采用向
抽象概念的
基元概念和
基本概念挂靠的方法表达。例如,人、一般人工物、现代产品这几类
具体概念分别用符号
p,pw,w9 表示,
基元概念是的概念节22b表示自身转移,那么,向它
挂靠的
pw22b 就表示交通工具;219 表示针对性接收,w9219 就表示现代探测设备;411表示结合,p411就表示夫妻;382
表示废弃,pw382 就表示垃圾;
基本概念里的概念节点711和712分别表示正和负,p711和p712就分别表示男人和女人。
参见HNC符号实例集2显然,这种
挂靠的表示方式都是很粗糙的近拟,但其重要意义在于:通过这一近似表示,计算机就能对有关概念之间的
关联性有所“领会”。
挂靠式表示方式的目的,就是在
具体概念与
抽象概念之间建立一种关联,并把这种关联用符号显式地表示出来,以利于计算机计算
语义距离。
挂靠的表示方式只适用于一部分
具体概念,一些基本的物质概念仍然需要进行独立的层次符号设计。为此,我们设计了一个基本物的
语义网络,这个
网络有7个一级节点:热、光、声、电磁、微观基本物、宏观基本物和生命体。这些节点的设置仍是服务于联想脉络的建立,并不完全遵循自然科学的标准。
按照上述设计,对
概念基元就可以写出下面的语义表示式:
F=Σ(字母串)(数字串)
F代表
概念基元的HNC符号。字母串由概念类别符号(φ,j,l,jl,p,w,x)构成,数字串由16进制数字的0~d构成。其中φ表示
基元概念,j表示
基本概念,l表示
语言逻辑概念,jl表示
基本逻辑概念。
复合概念的语义表示式为:
p8
F=Σ
Fk
Fk之间的连接通过8种
概念组合结构符号来表示。
2.2 全局联想脉络——语义块和句类
全局联想脉络是语句及篇章层面的联想。
语义块和
句类理论是在语句层面设计的
全局联想脉络,篇章层面的联想脉络本文暂不介绍。
简单地说,
语义块是句子的语义构成单位,形式上可以是一个词、一个
短语或一个句子。
语义块类似于传统语言学中的
短语,但是,两者具有本质的区别,表现在:第一,从内涵上来看,
语义块是语义,即语言深层的定义,
短语则是语法,即语言表层的定义;第二,从形式上来看,
语义块可包含或嵌套另外的一个甚至多个语句,而
短语不能。另外,传统的
短语更多的是被看作词的组合结构,而不是句子的直接构成单位。
参照概念比较集粹
语义块这一概念的提出是为了便于从语言深层(即语义层面)描述一个句子。用词或
短语描述句子,无法清楚地界定一个句子是否完备,如果问一个句子应该或者可能有多少个词或
短语,便难以回答。但有了
语义块的概念,就可以明确回答一个句子有多少
语义块以及每个
语义块的类型等问题。
在通常情况下,一个
语义块包含核心部分和说明部分。
语义块按其语义功能分类,
语义块的语义功能主要取决于其核心部分。
语义块分为
主语义块和
辅语义块两大类。主和辅是从句意表达的角度来分的,
主语义块是句义的“必不可少”的成分,
辅语义块是句义的“可有可无”的成分。
主语义块有4种:特征E、作者用A、对象B
和内容C。
辅语义块有7种:条件、手段、工具、途径、参照、因、果。
E,A,B,C四大
主语义块划分的理论依据是:一个语句表达的内容无非是两个方面,一是表达
对象,二是
对象的表现,前者是“什么”,后者是“怎么样”。作用者A、对象B
语义块是表达对象,内容C、特征
E语义块是表现。在表达对象中,B是一般表达对象,A是表达对象中的特殊对象;在表现中,E是一般表现,C是特殊表现。一个句子至少由一个
对象语义块和一个
表现语义块构成,但更为常见的结构是:两个
对象语义块加一个
表现语义块,一个
对象语义块加两个
表现语义块,两个
对象语义块加两个
表现语义块,还可以是多个
对象语义块加多个
表现语义块。所以,所谓“一个句子只有一个中心动词”的语法规范与语言表达的需要并不协调。
为什么
E语义块叫做
特征语义块呢?因为一个句子的基本语义信息就蕴涵在
E语义块中。那么,什么是基本语义信息呢?它来源于
作用效应链思想。一个句子总是对
作用效应链的某一或某些环节的表达,所谓一个句子的
基本语义信息就是指它所表达的关于
作用效应链的某一或某些环节的信息。这样,
作用效应链的6个环节自然就是
基本语义信息的分类标准,因而也是
E语义块的分类标准。不同类别的
E语义块构成不同类别的句子,从而引入了
句类的概念。HNC的
句类是句子的语义类别,与传统的
句类是完全不同的概念,后者指陈述句、祈使句、疑问句和感叹句,基本上是句子的语用分类。
p9参照概念比较集粹
只表达
作用效应链的一个环节的
句类称为
基本句类,表达两个或多个环节的
句类称为
混合句类。
E语义块的命名与
作用效应链6个环节的名称相一致,即作用、过程、转移、效应、关系、状态。由这些
E语义块构成的句子,分别命名为作用句、过程句、转移句、效应句、关系句和状态句。
E语义块的核心部分一定是动词,而且,不同类别
E语义块的动词来源于不同的
基元概念。
E语义块的分类标准,也就是
句类的分类标准。这个标准是与
三大语义网络密切关联的,它实际上也就是
HNC理论层次网络符号体系设计的基本标准之一。这样,
E语义块的辨识信息,或者说
句类的辨识,就是明确无误地蕴涵在概念层次网络符号体系之中。
由于判断是人类思维活动的基本内容,也是语言表达的基本内容之一,我们据此以定义了一个
句类:判断句。根据
作用效应链定义的6个
句类加上判断句,构成HNC的7个
基本句类。每一个
基本句类又分为若干个子类,子类的定义与相应
基元概念网络的二级节点相对应。子类之下还可以再分子类。
基本句类可以构成
混合句类。所谓
混合句类,是指两个以上的
基本句类在一个句子中共现,诸如作用效应句、过程转移句、状态判断句等。自然语言的句子是丰富的、复杂的,但它们表达的信息总是由7个
基本句类组成的,这正是
基本句类之所以称为“基本”的原因。在自然语言中,
基本句类的混合往往(或者说主要)是
两两混合,因此,
混合句类理论上应有5*6+6=36个。“5*6”是与
作用效应链相对应的6个
基本句类的
两两混合,“+6”是它们与判断句的混合。
上面说明了
语义块和
句类的概念,它们之间是什么关系呢?一句话:
语义块是
句类的函数。这就是HNC
语义块和
句类理论的基本论点。
解说:对于集合X中的任一元素x,集合Y中存在唯一的元素y与x对应,即由X映射到Y有唯一的值,则称Y为X的函数,记作y=f(x);若y的反函数x=f'(y)同时成立,即集合X、Y之间存在一一对应关系,则称X为Y的函数或Y为X的函数均可。HNC中,语义块在一个句子中的有无、个数和具体内涵随句类的不同而不同,即句类是自变量,句类决定语义块的类型,故称语义块构成类型(句类数学表示式)是句类的函数;而直观地,E语义块决定着句类,即E语义块的分类标准也就是句类的分类标准,从句类辨识角度看,应该称句类是E语义块的函数。由此,语义块与句类基本构成一一对应关系,谁是谁的函数都无所谓。
E,A,B,C四种
语义块是抽象概括的结果,它们在一个句子中的有无、个数和具体内涵随
句类的不同而不同。这就是“
语义块是
句类的函数”所概括的内容。例如,拿作用者
语义块A来说,作用句中的A
语义块是“产生影响者”,类似于一般所说的施事者,而转移句中的A
语义块是转移的发出者,过程句、关系句和状态句中则不涉及A
语义块。再如
对象语义块B,作用句和效应句中的B
语义块是“被影响者”或“接受者”,类似于一般所说的受事,过程句、关系句和状态句中的B
语义块是过程、关系、状态的体现者或承受者,而关系的体现者显然有两个,即关系的双方,它们都是B
语义块,彼此之间不存在施事和受事的关系。在转移句中,B
语义块是转移的接收者,而转移“物”则是转移的内容,即
C语义块。
我们把“
语义块是
句类的函数”具体体现为
句类格式。
句类格式是指一个句子的
主语义块的排列顺序,例如作用句必须有三个
主语义块:作用者A、作用X(即
E语义块)和作用的对象B,三者的排列顺序不外乎6种:A+X+B,B+X+A,B+A+X,A+B+X,X+A+B,X+B+A。选择这6种格式的哪一种作为
标准格式,不同语种间存在着差别,比如汉语和多数印欧语都采用第一种格式。
标准格式中蕴涵着
主语义块类别的辨识信息。
7种
基本句类和36种
混合句类的提出为语句
深层结构的表达提供了简明而完备的手段,所谓
深层结构就有了计算机可操作的数学表示式。例如:
p10参见HNC句类示例1
| 句类 |
|
句类物理表示式 |
例句 |
| 作用句: |
|
XJ=A+X+B |
张三打断了李四的腿。 |
| 过程句: |
|
PJ=PB+P |
李四的腿伤大有好转。 |
| 转移句: |
|
TJ=TA+T+TB+TC |
李四的朋友电告李四父母这个好消息。 |
| 效应句: |
|
YJ=YB+Y+YC; |
李四养好了腿伤。 |
|
YBC+Y |
李四的腿伤养好了。 |
| 关系句: |
|
RJ=RB1+R+RB2; |
张三失去了他多年的女友。 |
|
RB+R |
张三跟他多年的女友吹了。 |
| 状态句: |
|
SJ=SB+S+SC; |
张三穿着皮大衣。 |
|
|
SB+S; |
张三升官了。 |
|
|
SB+SC |
张小姐很漂亮。 |
| 判断句: |
|
DJ=DA+D+DBC |
张三认为李四不该那样做。 |
| 反应句 |
(作用句的子类): |
X2J=X2B+X2+XBC+(X2C) |
张先生怕李小姐发脾气。 |
| 基本状态句 |
(状态句的子类): |
S00J=SB+S00+SC; |
主席团坐在台上。 |
| SC+S00+SB |
台上坐着主席团。 |
| 作用关系句 |
(混合句类): |
XRJ=A+XR+RB |
张三挑拨李四和我的关系。 |
| 关系作用句 |
(混合句类): |
RXJ=RB1+RX+B |
张三多次帮助过李四。 |
这些表示式就是计算机赖以进行语句联想操作的基础。表示式中的每一项代表一个
主语义块,这些
主语义块的语义角色由该项的命名符号所唯一确定,它们是引发
全局联想脉络的激活因子。
EABC
语义块在形式上似乎与传统语言学的主谓宾补相对应,其实它们是完全不同的概念,有着本质的区别:EABC是语义层面的概念,是语言深层的描述量,它们是
句类的函数,但与句子的格式无关;主谓宾补是语法层面的概念,是语言表层的描述量,它们与
句类无关,但与句子的格式息息相关。EABC
语义块和主谓宾补是从不同层面或角度对句子的结构提出分析的模式,不能相互代替。
参照概念比较集粹
最后,简单叙述一下EABC概念的
形成过程,这对于加深对这一概念的理解或许有所裨益。与主谓宾补相联系,语法学还有动词的及物和不及物以及双宾语等概念。但及物性的具体表现,仅在语法层面进行研究十分困难,它涉及宾语的分类问题,有的及物动词要求双宾语,有的不仅要求宾语,还要求补语。这些问题都必须进入语义层面,才能给出明确的答案。从理解来说,仅有及物的概念是远远不够的,重要的是:它“及”什么样的“物”?开始的时候,曾以为这只是语汇层面的特征,后来才发现不是这样,它也是概念层面的重要特征,这一发现导致“
语义块是
句类函数”概念的形成。但应该说,是
格语法理论的创立者
菲尔墨最先想到了这一点,他是对宾语和主语进行语义分类的第一位先行者。可惜他的理论匆忙出台,在理论总体性和层次性方面都比较欠缺。现在看来,主语和宾语的语义分类必须用ABC函数的概念,即将
语义块作为
句类的函数来处理才能给出完善的表述。至于双宾语,它
p11一定是转移型概念,而同时要求宾语和补语的一定是作用效应型概念。
3 HNC理论的实现
上文介绍的两个联想脉络是
HNC理论的基础部分,它的另一部分内容是
自然语言理解的框架和具体实践。
HNC理论走向应用的第一步是
语义块感知和
句类辨识。
语义块感知就是找出一个句子中的各个
语义块,
句类辨识就是通过感知得到一个句子的
E语义块,进而确定这个句子所属的
句类。计算机能否
感知到语义块关系到HNC能否指导实践、是否有应用价值的问题,
张全的博士论文(
张全1996)对此做了肯定的回答。
感知到语义块、
辨识出句类以后,就可以运用
句类知识对句子进行理解处理,这称为
句类分析。在
句类分析过程中,
句类知识起着全局性的指导作用,主要有四方面的知识:一是
句类格式知识,二是
语义块构成知识,三是
语义块之间的
概念关联知识,四是
语义块和
句类的转换知识。
语义块感知和
句类辨识主要运用
局部联想脉络,
句类分析主要运用
全局联想脉络,当然,处理过程中这两个联想脉络的运用不是截然分开的。
以
句类分析为基础,HNC设计了
自然语言处理系统的基本框架,这个框架由9个模块组成:1、
单音词感知模块;2、
语义块感知模块;3、
句类分析模块;4、合理性分析模块;5、
短时记忆知识模块;6、
语境生成模块;7、
隐藏知识提示模块;8、
要点主题分析模块;9、
短时记忆向
长时间记忆扩展的模块。目前,部分模块已在计算机上得到实现。
自然语言处理离不开知识库,对知识库的设计和建立也是
HNC理论的重要组成部分。人工智能早期一系列挫折,使人们认识到知识的重要性。要使计算机表现出智能,唯一的办法就是使它拥有并运用知识。正是这一认识促成了20世纪70年代到80年代的“
专家系统热”,并取得了引人注目的成就。但这些专家系统的知识,都是局限于特定的领域,而一般
自然语言理解(不包括特定领域的简单语言应用系统)所需要的知识则完全不同于通常的专家系统。它需要各种各样的知识,但可以分为三大类:
概念知识、
语言知识、
常识及专业知识。前两类知识的本质区别在于:
语言知识与具体语种有关,而
概念知识与语种无关。把
概念知识从
语言知识中独立出来是势在必然的发展。把
常识及专业知识独立出来对知识库的建立是非常方便和有力的,这一点不言而喻
参见人工智能点评。我们已经建立了比较完备的
概念知识库,目前正在紧张地进行汉语
语言知识库的建立。我们曾建立过地理知识库,使用效果很好,所以具有建立
常识及专业知识库的成功经验,但
常识及专业知识库的建立目前还不是
自然语言理解处理的迫切任务。
自然语言理解处理的进展必须由信息处理工作者和语言研究者共同推动。令人高兴的是,在我国
计算语言学前辈的推动下,这两方面力量开展联合研究的局面已开始形成,并初步组成了联合攻关的队伍。
p12
主要参考文献
黄曾阳.1996.HNC理解处理论文选录.中国科学院声学研究所声场声信息国家重点实验室自然语言理解课题组
林杏光.1997.正确引导汉语理解与研究——事关人工智能开发的一个重要前提.科技导报,1997(4)
苗传江.1997.HNC理论的基本内容.中科院声学所“HNC知识库培训班”教材
张全.1996.基于HNC理论的语义块感知处理.中国科学院声学所博士学位论文
Chomsky N.1957. Syntactic Structures. Hague:Mouton
Chomsky N.1965. Aspects of
the
Theory of
Syntax. Cambridge, MA:MIT Press
Fillmore
C
J.1968.
The
case
for
case.
In: Bach
E, Harms
R
eds.
Universals in
Linguistic
Theory. New York:Holt,Rinehart
and Winston
Qullian M R . 1986.Semantic memory.In: Minsky
M Ed.Semantic
Information Processing. Cambridge, MA: MIT Press
Schank
R. 1973.Identification
of
conceptualizations
underlying natural language. In: Schank
R, Colby
K
Eds. Computer Models
of Thought
and Language. San Francisco, CA: W
H
Freeman
and
Company
Schank
R. 1957a. Conceptual
Information
Processing,
Amsterdam: North Holland
Schank
R.
1957b. The structure
of
episodes
in
memory .In:Bobrow D, Collins A
.eds.Representation and Understanding New York: Academic
Press
Schank
R. 1982. Dynamic Memory.New York:Cambridge
University Press
Schank
R.
Abelson
R.1997.
Scripts,Plans,Goals and Understanding. Hillsdale,NJ: Erlbaum
p13
*
本文发表于《中文信息学报》,Vol.11,No.4,1997。发表时该刊加有
主编按语:《HNC理论概要》的作者
黄曾阳先生创立的面向整个
自然语言理解的理论框架,在语义表达上有自己的特色,在语义处理上走了一条新路。鉴于汉语语法研究尚有诸多困惑,
HNC理论所走的以语义表达为基础的新路子对突破汉语理解问题尤其有实际意义。
参见陈力为的题词
返回篇首 返回书目
自然语言语义网络的基本构成及其特征
引言
语义网络作为一种知识表示方式,早已为人们所熟知。但是,对自然语言语义网络的基本构成及其特征,似乎需要一个
总体性的描述,而这样的描述还很欠缺。这一描述的目的在于阐发大脑
认知结构(cognitive
structure)的具体模式,以期有助于计算机运用这些模式,在语义层面进行自然语言的理解处理。
本篇及其姊妹篇
[2](注:方头括号[]表示引用的是〈
论文〉系列中的文章,
[2]表示“
论文2”,下同。〈
论文〉系列亦称Paper系列。)是对自然语言语义网络进行
总体性描述的理论尝试。
这个
总体性描述理论将命名为
概念层次网络理论,英文是Hierarchical
Network of
Concepts,简称
HNC理论。
这个理论将
认知结构先分为
局部和
全局两类联想脉络。
局部联想脉络的出发点是试图形成一种预期及判断能力,以便计算机能够实行一种“自下而上”(bottom-up)与“由上而下”(top-down)相结合的理解处理模式。
局部联想脉络是本文的主题,
全局联想脉络是
[2]的主题。
我们将把这种处理方式称为
句类分析。
句类分析是语义层面理解处理的核心模块。这将在
[3]中作系统说明。
句类分析的知识基础包括概念层面、词汇层面、语句层面、语境层面的知识。这四个层面的知识应以语句层面为中心,并命名为
句类知识。这类知识将在
[14]到
[21]中分专题讨论。概念层面和词汇层面的知识则在
[6][7][8]中讨论。语境层面的知识与常识性知识最为密切,因而难以给出系统的描述,仅在
[3]中予以初步说明。
上述四个层面的知识,从整个知识的海洋来看,仍不过是“沧海一粟”。基于这些知识的理解处理在
自然语言理解的万里长征途中仅仅是向前迈出了一小步。从应用的角度来说,这一小步的具体体现是能够模拟大脑语言感知过程对语句的理解,从而也许能在
解模糊及纠错处理方面接近甚至达到人类的水平。因此,这一小步,对于“
知识产业”(knowledge
industry)或语言信息处理的发展也许能起到较大的推动作用。而中文信息处理则是我们首先关注的目标。
为了下面行文的方便,我们不得不引入一些新的术语,现在先对这些术语作一个简明的介绍,有些术语在后文还有详细说明。
p17
1
五元组(v,g,u,z,r)
指
抽象概念的类型特征,分别代表概念的动态、静态、属性、值和效应表达。每个
抽象概念都具有这五个侧面的类型特征,也可称为抽象语言概念的形态或外在特征。
2
概念矩阵
这是
五元组思想的自然推论。
抽象概念的内涵和它的
五元组分别构成
概念矩阵的行和列。这个术语没有实质性的意义,主要是为了说明方便,将来对某一类语义网络可用“某”行或“某到某行”称之。
3
基本概念、
基元概念、
逻辑概念
这是我们对语言
抽象概念的基本分类,并分别用类别符号j,φ,l
予以标记。这三大类语言概念实际上就是
三个超级语义网络,后文有详细说明。
4 类别符号集
除上述
五元组符号(v,g,u,z,r),三大类
抽象概念的类别符号(j
,φ ,l)之外,还引入了下列概念类别符号:
这15个类别符号专门用于表达概念的类别特征,不能用于层次符号的变量表示。它们是概念类别的
基元表示,其中的
基元概念符号φ在具体表达时可以省去。由这些
基元符号还可以构成各种
复合型概念类别。
5 层次符号集
由数字0到13构成,10到13用小写字母a,b,c,d表示(16进制)。
6
概念组合结构符号集
由下列符号组成:
| 作用、效应 |
作用 |
# |
四线交叉,表示交互作用 |
| 效应 |
$ |
形似于英语reSult |
| 对象、内容 |
对象 |
& |
C语言中取地址运算,即指称对象 |
| 内容 |
| |
C语言中用*表示取内容,|为位或运算 |
| 包含 |
|
——0… |
|
| 挂靠结束 |
|
* |
为与小数点或英文句号区别 |
| 展开 |
|
+ |
加,扩展 |
| 偏正 |
|
/ |
形似于“偏” |
| 主谓 |
|
|| |
通常用于划分句子成份,C语言中逻辑或运算 |
| 逻辑组合 |
逻辑并 |
, |
标点符号本意,C语言中标识函数参数的位置 |
| 逻辑选 |
; |
标点符号本意,表示前后可选;C语言中句末 |
| 非 |
! |
C语言中逻辑非运算,表示否定 |
| 反 |
^ |
C语言中位异或运算,正是汉语“反”的意思 |
| 括号 |
() |
优先级最高的结合符 |
| 一般逻辑组合 |
(,lm,) |
|
7
概念的一般表达式
Σ{类别符号串}{层次符号串}{组合结构符号}{类别符号串}{层次符号串}
其中的“类别符号串”也叫“字母串”,用类别符号集的字母表示。
五元组符号一定在其他类别符号的后面。“层次符号串”也叫“数字串”。字母串代表概念的类别特征,数字串代表概念的层次性内涵,组合结构符号代表
复合概念的
组合结构。
8 层次符号串的两种基本形式
层次符号串=高层(Σ中层底层)
层次符号串=(
本体层)(
挂靠层)
除上列术语之外,文中还会用到“
语义块”、“
句类”、“
句类的子类”等术语,它们在
[2]中有详细说明,读者可先顾名思义,仅作粗浅理解。
本文分下列7个题目:
抽象概念的多元性表现及五元组
中层层次符号的设计及概念局部联想脉络的基本特征
基本概念
基元概念
语言逻辑概念
概念的组合结构
具体概念的近似表达
这个顺序安排不甚合理。按自然顺序,应先介绍
基元概念,随后介绍
语言逻辑概念,但
基元概念与
基本句类的划分密切相关,
语言逻辑概念与
语义块感知密切相关,对他们的表述不能不涉及到“
句类”“
语义块”以及赋予了特定意义的“
对象”“
内容”等术语,而这些术语的内涵比较复杂,在
[2]中才有阐述。所以把这两个题目安排在中间,希望有助于减轻新术语带来的困扰。但我们仍建议读者在阅读
第3节和
第4节的同时,翻阅一下
[2]的前两节。
下面转入
正文的讨论。
p19
1.1
抽象概念的多元性表现及五元组
1.2
中层层次符号的设计及概念局部联想脉络的基本特征
1.3
基本概念
1.4
基元概念
1.5
逻辑概念
1.6
概念的组合结构
1.7
具体概念的近似表达
结束语
本文初稿写于1991年,当时的题目是“
概念层次网络理论概述”。到今天又过去四年了,但作者仍感到,本文仍未到公开发表的水平,因为层次符号的底层设计仍在探索之中,而高层设计的合理性检验是离不开底层设计的。
但是,底层设计是一个复杂的系统工程,我们寄希望于与语言学家及同行们的合作。
参见HNC研究方向提示
论文2
自然语言的深层结构及句类分析
引言
语法学有句类、句型、句式等概念,这些概念只涉及语言表层的分类和分析,并没有揭示
语言的深层结构。因此,语法分析不仅不能辨认所谓“语法正确、语义荒谬”的句子,如“无色的绿色思想在狂怒地睡觉”(Colourless
green ideas sleep
furiously),“所有的石头都死了”,也不能辨认大部分所谓搭配不当的语法错误,如“秋天的北京是美丽的季节”,“盐在血液循环中起着重要地位”。
对上述“语义荒谬”或“语义搭配不当”错误的判断,显然已超出了语法的范畴。它们已不是语法层面、而是语义层面的研究对象,或者说,不是语言表层、而是
语言深层的研究课题。从应用的角度来看,对此类错误的判断已成为
自然语言理解处理的基本需要。这就是说,理论和实际应用两方面都产生了一种迫切的需要,就是在语义层面建立语句分析的理论模式和方法。这是一项任重道远的探索,本文只是一次尝试。
语言深层的根本问题是
联想脉络的表述,
联想脉络有局部和全局之分。简单地说,
局部联想是指词汇层面的联想,
全局联想是指语句及篇章层面的联想。这两种联想当然不可能截然分开,界限模糊永远是语言的基本特征。
参照语言漫议但
局部联想和
全局联想的概念仍然是有益和有效的。从这个意义上说,本文是关于语句层面
全局联想的阐述,其
姊妹篇[1]是关于
局部联想的阐述。
在形成本文的过程中,是否创立一些新术语的问题曾困扰作者良久。借用语言学原有的术语而赋予新的含义是一种可供考虑的方法,但建立并穷尽自然语言语句物理表示式的总目标使作者在情绪上不愿意接受这种方法。所以,本文将先简要介绍有关的术语,然后转入正文的叙述。
语义块:语句的下一级语义构成单位。它可以是一个词、一个短语,甚至可包含另一个句子,或由另一个句子蜕化而来。在通常情况,一个
语义块包含核心部分和说明部分,其核心部分也称为
语句要素。
语义块以其
要素命名。
语句要素:简称
要素,即
语义块的核心部分,有主辅之分。
主要素:四种,是
句类的函数。分别命名为:特征要素,作用者,对象和内容,分别用符号EABC表示。
辅要素:七种,也是
句类的函数,但依赖性较弱。分别命名为:手段,工具,途径,比照,条件,原因,结果和目的,分别用符号Ms,In,Wy,Re,Cn,Pr,Rt表示。
p44
主语义块:以
主要素为核心构成的
语义块。四种
主语义块以相应
主要素命名,即
特征语义块、作用语义块、对象语义块和
内容语义块。简称E块、A块、B块、C块,后三者也合称
广义对象语义块,在形式上可统一记为JK。A、B、C实质上是
广义对象语义块的基元表示或块素,A、B、C可以连用,从而构成
复合语义块。
辅语义块:以
辅要素为核心的
语义块。通常带有
语义逻辑概念的辅块标记l1或l8
解说:辅语义块单一标志符、辅要素说明符。七种
辅语义块也以相应的
辅要素命名,对应的辅块标记为l11~l17。在形式上
辅语义块可统一记为fK。
基本句类:七种,分别命名为:作用句,效应句,过程句,转移句,关系句,状态句,判断句。相应的符号为:X,Y,P,T,R,S,D。每一
基本句类又分为若干子类,子类的定义与相应
主体基元概念网络的二级节点相对应。
各句类特征要素的符号:与
句类符号相同。
广义对象语义块的符号表示:由句类标志和自身标志联合构成,如转移对象和内容分别记为TB、TC,效应对象和内容分别记为YB、YC。当需要标明子类信息时,则在两类字母间加数字符号予以标志,如物和信息转移对象和内容分别为:T2B、T2C、T3B、T3C。数字与
主体基元概念层次符号第二层相对应。
句类格式及其
标准格式:
句类格式定义为
主语义块的排序。
标准格式定义为
主语义块的约定顺序。显然,
标准格式与语种有关。本文给出的
标准格式以汉语为参考。例如,汉语作用句、反应句、作用效应句的
标准格式分别是:
作用句
A+X+B
反应句
X2B+X2+XAC
作用效应句
A+X+B+YC,YC=E+EC
这里,作用句的A、B前面省去了X,这只是一项书写的约定。反应句是作用句的一个子类。作用效应句是
复合句类之一。上列表示式就是
语句的物理表示式,因为该式的每一项(
语义块)都有明确的物理意义。关于
语句的物理和
数学表示式在
[21]中有详尽说明。
混合句类:是指两
基本句类的混合,理论上应有6×5+6=36种。这里的6表示与
作用效应链相对应的六个
基本句类,6×5是它们的
两两混合,+6是它们与判断句的混合。这里混合的意思是指一个E块同时含有
作用效应链的两个甚至多个环节的信息,不是指一个语句里存在两个E块。
复合句类:指一个句子存在两个甚至多个E块,而且它们分别含有
作用效应链不同环节的信息。
2.1
语义块、E语义块、句类及其格式
2.2
广义对象语义块
2.3
辅语义块
2.4
句类分析概述
结束语
本文是
[1]的姊妹篇,试图在语义层面提出一个语句分析的理论模式。
我们把这个理论模式叫作
句类分析。
句类分析的起点是语义块的辨识和句子类别的辨识,后者简称
句类辨识。
语义块的辨识包括语义块的切分、组合和类别辨识三方面的内容,统称
语义块感知处理,将在
[11]中作专题论述。但这里可以预告一个要点,就是
语义块感知处理的基本武器是
lv准则,这个准则里的l就是指
文[1]所阐述的l类概念。
语义块是
句类的函数,由语义块物理表示式构成的
语句物理表示式就是
语句的深层结构。这些语句表示式是
句类分析的立足点,而且,自然语言的
物理表示式是可以穷尽的。这是本文的基本论点。
因此,
语义块感知处理实际上离不开
句类辨识。
句类辨识的信息则来于
[1]所阐述的
基元概念和
组合结构,特别是其中的
主体基元概念p58和作用效应型
组合结构。
这就是说,本文所提出的语句分析模式的理论基础是
概念层次网络理论。关于
基本句类的内涵,包括它的格式和句式,本文只作了最高层次的简要说明。
每个
基本句类都分成若干一级子类,一级子类之下,又分二级子类。这些问题不可能在本文展开讨论,它们是
文[14]到[20]的基本内容。
对
句类分析的立足点,即
语义块,本文则作了详尽的说明。在四种
主语义块中,
C语义块扮演了特殊的角色,文中着重阐述了它的
对象表现双重性、
扩展性及
融合性,其中的
融合性又形成
语义块构成的重要特征,对此,在
[14]的
第2节中有进一步的说明。
1994年冬
后记
在
《论文》系列预定的21篇论文中,本篇是最早动笔的一篇,这次作了一些文字上的修改。文中关于
基本句类一级子类
物理表示式可以穷尽的预测已经实现,这是
HNC联合攻关组在1997年的重大成果之一。本书附录中以
刘志文为首的论文“
自然语言语句的HNC表示”和
苗传江的论文“
HNC理论的句类”对此有更详尽的阐述。关于
基本句类的详细清单和说明,读者还可通过因特网参阅《HNC句类知识手册》
解说:因特网上尚未有正式的手册,可参阅《基本句类知识要点说明》。
本文后来的重要发展有:
句类变换;
广义对象语义块的分离;
两可(主辅两可)类语义块的定义和处理;对
句类非标准格式引入了
规范和
违例两种格式的划分,并据此穷尽了
句类格式的各种变化。这些都在《
HNC理解处理的52个论题》中有所阐述。
1998年8月18日
p59
论文3
HNC理解处理系统的基本框架
引言
本文讨论
概念层次网络理论[1][2]的应用,但不涉及技术实现的细节。主要是说明:语义层面
自然语言处理基本框架的构成及其主要功能模块,它们所需要的知识及知识运用的方式和难点,
概念层次网络理论及
HNC知识库可提供的信息和知识的局限性。
本文先给出基本框架的模块框图,随后各节对其中的某些模块作理论性说明。
3.1
基本框架的一般性说明
3.2
关于语义距离及其计算
3.3
句类分析的初级处理
3.4
语句合理性分析及回溯处理
3.5 短时记忆和语境生成(兼[1]
~[3]小结)
HNC理论预定建立以下五个层面的自然语言理论模式:
p77
1、
自然语言概念体系的理论模式;
2、自然语言
语义块和语句的理论模式;
3、
句群关联性及
篇章要点的表述模式;
4、
短期记忆和
长期记忆的形成及其相互转换模式;
5、基于
文字文本的知识学习模式。
没有这五个理论模式的建立,
自然语言理解这一人工智能的分支学科不可能摆脱当前的低水平状态,长此以往将对信息时代空前膨胀的语言信息财富陷入“望洋兴叹”的困境。虽然信息的生成、传送和接收,当前显得热闹非凡,但应该清醒地看到,语言信息财富的利用水平仍然极不协调地滞留在相当于物质财富利用的农业时代。改变这一状态的唯一出路是
自然语言理解的突破,
HNC理论试图为这一宏伟目标尽一份力量。
[1]和
[2]是前两个理论模式的概要说明,但后三个理论的模式探索则有待于前两个理论模式的技术实现。本文试图对此有所推动,但这一历史的重任只能依靠年青一代来承担。
参见HNC研究方向提示
短期记忆与
语境生成处理模块密切依赖于后三个理论模式的建立,但这不等于说,当前就只能束手等待。
短期记忆和
语境生成都可以从简单方式做起。在
第2节中已给出了一些示范性说明。
词知识库中未登录的人名、地名和物名是
短期记忆模块应优先关注的对象。这里的人和物都是广义的,包括
HNC符号体系所定义的pe、gw、rw和vC类概念
注释:pe为社会组织,见附表一;gw、rw为物的静态、效应或因和果;c为社会性活动,C为内容语义块,v为动态,不知vC类概念指何物?。它们在现代传媒代信息中占有过于特殊的地位,不能不运用
短期记忆模块予以处理。
参见存疑录通过句类知识的运用,这是不难做到的,当前可仅作为一项技术设计问题来处理。
参见技术实现提示
语境生成似乎茫无头绪,其实不然。
复合基元概念局域网络的设计已为此作了充分准备,不难据此列出一张
语境类型的清单。所谓
语境生成,就是对这一清单的具体认定。这可以通过对要素词语
HNC映射符号的简单统计作出判断。
关于
复合基元的设计在
[1]中未详细阐述,但在它的续篇
[6]中,从
语境生成角度作了较详细说明。
1995年冬
后记
近三年前写的这篇论文,大体上形成了HNC理解处理技术实际发展的基本思路。这里应说明两点:第一,文中关于
初级、
中级和
高级句类分析之说已废而不用,改为
语义块感知——句类假设与
句类分析——
语义块构成处理三部曲的提法,并将这个三部曲所体现的处理策略概括为“
中间切入,先上后下”的
八字诀。其次,文中多次提到的
语义结构方程也已弃而不
p78用,它所提供的知识改由汉语HNC
语言知识库给出更完备的表述。因此,原来以“汉语非单音词知识库及语义结构方程”命名的
[7]已用1997年秋写的“
关于汉语HNC知识库的建设”一文来代替。
由于上述两项大的变动,本文中的一些提法和用词已不够确切。但为了保持历史原貌,一律未改动。
1998年8月18日
p79
返回书目
论文6
概念知识和语言知识
引言
人工智能早期一系列的挫折,使人们认识到知识的重要性。要使计算机表现出智能,唯一的办法就是使它拥有并运用知识。正是这一认识促成了20世纪70到80年代的“
专家系统热”,并取得了引人注目的成就。但这些
专家系统的知识,都是局限于特定的领域,而一般
自然语言理解(这里不包括特定领域的简单语言应用系统)所需要的知识则完全不同于通常的
专家系统。它需要各种各样的知识,但可分为三大类:
概念知识、
语言知识、
常识及专业知识。
前两类知识库的本质区别在于:
语言知识的内容与具体语种有关,而
概念知识与语种无关。把
概念知识从
语言知识中独立出来,从
概念层次网络理论来看,是势在必然的发展。
参见人工智能点评
本文仅具体讨论
概念知识,两种最重要的
语言知识在
[7][8]中讨论。所以,本文题目似乎有点名不副实。但这两类知识不可能截然分开,混合形态必然存在,而对后者的说明是本文内容之一。另外,本文还会谈及三类知识库的一般特征。这样,本文的题目大体上可以通过了。
由于
本文以
概念知识的阐述为主,所以,它应视为
文[1]的续篇。
文[1]对
复合基元概念略而不谈或言而未尽的部分将在本文
6.2.3中作系统说明。
6.1
语言知识与概念知识
6.2
自然语言概念符号体系的补充说明
6.3
概念节点关联性知识
6.4
句类标准格式知识
6.5
层次网络符号到自然语言词汇的
反映射知识库
此知识库的数据结构也采用词典方式,但词典项目不仅是
概念基元,还包括所有
复合概念,因此,此词典的“词汇”量远大于前述概念词典。
此词典的内容是各语种的词汇,不是每一语种一部词典,而是各语种全在一起,如同多语种对照词典,但对照的共同标准是
概念层次网络符号。
此词典用于是人机对话系统和
机器翻译的语言生成。
显然,两种应用对比词典的要求差异甚大,应考虑分别建库。
结束语
本文实质上是
文[1]的续篇。
文中着重介绍了四类
概念知识:
1、概念类别知识及概念节点配置知识;
2、
复合基元概念与
语境的关系;
3、概念节点
关联性知识;
4、
句类格式知识。
这四类知识都需要建立相应的
概念知识库,当然,某些知识可直接纳入HNC理解处理程序自身的库函数。这些知识与语种无关,是理解处理的最基础的知识。
句类分析,或模拟人的思维过程对自然语言进行理解处理,必须从这一知识的运用入手,也可以说,它是语义层面理解处理的起点。
1995年冬
返回书目
返回论文三
论文四
论文七
返回论文二
论文六