新浪博客

有限状态语法和它的局限性

2011-03-24 16:43阅读:

有限状态语法和它的局限性

有限状态语法和它的局限性
冯志伟

由有限状态语法重写规则可知,当从状态q0转入状态q1时,可生成一个终极符号a。这样,我们便可以把有限状态语法想象成一种生成装置,这种装置每次能够生成一个终极符号,而每一个终极符号都与一个确定的状态相联系。
有限状态语法和它的局限性



有限状态语法有一定的描述自然语言句子的能力。但是,由于真实的自然语言句子中常常有套迭、递归等结构,有限状态语法对这些结构的处理能力不强。因此,在自然语言处理中,人们喜欢用有限状态语法来进行黏着语和屈折语的形态分析。
黏着语的词内有专门表示语法意义的附加成分,一个附加成分表达一种语法意义,一种语法意义也基本上由一个附加成分来表达,词根和词干的结合不紧密。日语是一种黏着语,日语的词可以分为独立词和附属词两大类。独立词在句子中能单独地使用,如名词、代词、数词、动词、形容词、形容动词、连体词、副词、连词、叹词等;附属词在句子中不能单独使用,只能附加在独立词之后起一定的语法作用,如助词、助动词等。除了叹词和连词之外,独立词在句子中的地位和语法功能都由助词或助动词表示,因此,助词和助动词在日语中起着特别重要的作用。动词、形容词和形容动词有屈折变化,其变化以后面的黏着成分为转移。如果我们把日语中具有屈折变化的词以及它们后面附加的助词或助动词看成是由若干个不同的语素连接而成的符号串,则可以用有限状态语法对它们进行切分,在切分过程中,把词干的词汇意义和各种附加成分表示的语法意义记录在屈折变化词上,就可以得到关于这个屈折变化词的词汇信息和语法信息,达到形态分析的目的。为此,我们可以建立一部机器词典。在机器词典中,对于每一个词标出它的形式、它的形态信息、句法信息、语义信息、它可能接续的附属词等等。在利用有限状态语法来切分屈折变化词的过程中,就可以将构成这个屈折变化词的每个语素在机器词典中记录的有关信息,转移到这个屈折变化词上,从而得到关于这个屈折变化此的各种信息,实现对日语的形态分析。例如,我们可以建立如下的状态图来分析日语短语“みじかくなります”(变短了)。

有限状态语法和它的局限性
分析日语短语的状态图

我们建立如下的词典:
みじかく:形容词みじかしい(短的)的连用形;
なり:动词なる的连用形;
ます:表敬体的动词ます的终止形。
在上面的状态图中,从初始状态开始,沿着箭头所指的方向遍历这个状态图,同时把词典中有关的信息记录在“みじかくなります”上,便实现了这个短语的形态分析。
屈折语用屈折词尾表示语法意义,词可以由词根、词缀和词尾构成,词根和词缀可以组成词干,词根也可以单独成为词干,因此,我们用状态图来表示屈折语单词的形态分析过程。
在一种语言里,词缀的数量是有限的,根据词缀相对于词根(或词干)的位置,可以分为前缀、后缀和中缀三类。
前缀附加于词根(或词干)之前。如英语中的un-往往使原词意义变成相反:lucky(幸运的)-unlucky(倒霉的)。
后缀附加于词根(或词干)之后。如英语中的-ness常常把形容词变成名词:straight(平直的)--straightness(平直度)。
中缀附加于词根(或词干)之中。如他加禄语(Tagalog)中的-um-往往表过去时:sulat(写)--sumulat(写过了)。
屈折语中一般没有中缀,因此,我们在为屈折语形态分析设计状态图时,只考虑前缀和后缀。
在屈折语的一个单词中,前缀、词干、后缀和词尾的关系有如下几种情况:
-- 单词只有词干。例如,英语的form (形式)。
-- 单词由前缀和词干组成。例如,英语的reform(改革,re-是前缀,form是词干)。
-- 单词由词根和后缀组成。例如,英语的formation(形成,form是词根,-ation 是后缀)。
-- 单词由前缀、词根和后缀组成。例如,英语的reformation(革新,re-是前缀,form是词根,-ation是后缀)。
-- 单词由词干和词尾组成。例如,英语的forms(“形式”一词的复数,form是词干,-s是词尾)。
-- 单词由词根、后缀和词尾组成。例如,英语的formations(“形成”一词的复数,form是词根,-ation是后缀,-s 是词尾)。
-- 单词由前缀、词根、后缀和词尾组成。例如,英语的reformations(“革新”的复数,re-是前缀,form是词根,-ation是后缀,-s是词尾)。
因此,我们设计如下的状态图来进行英语名词的各种变化形式的形态分析。

有限状态语法和它的局限性
分析英语形态的状态图

可见采用状态图可以非常清楚地描述屈折语单词的形态分析过程。
在词根与后缀相连时,有时会发生音变。例如,英语的词根decide与后缀 –ion连接成decision时,-de-变为-s-,decide中的元音i读为[ai],在decision中变为[i]。对于这些问题,在用状态图来进行形态分析时,应该建立相应的音变规则来处理。可见,有限状态语法是形态分析的有力工具。
然而,由于有限状态语法的重写规则的形式限制较严,它存在着如下的缺陷:
第一,一些由非常简单的符号串构成的形式语言,不能由有限状态语法生成。Chomsky举出了如下三种形式语言:
① ab, aabb, aaabbb,……,它们的全部句子都是由若干个a后面跟着同样数目的b组成的,这种形式语言可表示为L1={anbn},其中,n ≥1。
② aa, bb, abba, baab, aaaa, bbbb, aabbaa, abbbba,……,这种形式语言是没有中心元素的镜像结构语言。如果用α表示集合{a,b}上的任意非空符号串,用α*表示α的镜像,那么,这种语言可以表示为 L2={αα*}。
③ aa, bb, abab, aaaa, bbbb, aabaab, abbabb,……,它的全部句子是由若干个a或若干个b构成的符号串α,后面跟着而且只跟着完全相同的符号串α而组成的,如果α表示集合{a,b}上的任意非空符号串,那么,这种语言可表示为L3={αα}。
L1,L2,L3都不能由有限状态语法生成,可见这种语法的生成能力不强。
第二,在英语中存在着如下形式的句子:
① If S1, then S2.
② Either S3, or S4.
③ The man who said S5, is arriving today.
在这些句子中,if - then, either – or, man – is之间存在着相依关系,这种句子,与Chomsky指出的、具有镜像结构的形式语言L2很相似,也不能由有限状态语法生成。
在其他语言中也存在着镜像结构的句子。例如,在法语中可以看到这样的句子:
Chez la maitresse d’un member d’une societe linguistique enrhume envoyee à Paris.
a b c c b a
(在巴黎语言学会的一个患感冒的会员的出差到巴黎的女教师家里)
我们可以看到,在这个句子中,societe与linguistique相配(都是阴性),member与enrhume相配(都是阳性),maitresse与envoyee相配(都是阴性),因而形成abccba这样的镜像结构。前面我们说过,这样的句子是不能由有限状态语法来生成的。
第三,美国语言学家P. Poster (波斯塔)在《短语结构语法的局限性》(Limitation of phrase structure grammar, 1964)中指出 ,在印第安的Mohawk语中,动词的宾语要在动词的前后按相同的顺序复现。
例如,“我读书”,在Mohawk语中是:
“我书读书”,其形式为aa
a a
“我喜欢读书”,在Mohawk语中是:
“我书读书喜欢书读书”,其形式为babbab
b a b b a b
“我尝到了读书的甜头”,在Mohawk语中是:
“我书读书的甜头尝到了书读书的甜头,其形式为babcdbabcd
b a b c d b a b c d
Mohawk语中的这种结构,与形式语言L3很相近。显而易见,这样的结构也是不能用有限状态语法生成的。
第四,有限状态语法不适合于刻画自然语言的句法结构。例如,上面我们的那个表示存现的汉语句子“客厅里坐着两位客人”,表示其句法结构的状态图显得十分复杂,如果遇到汉语
的套迭和递归等结构,其状态图不知要有多么复杂。可见,有限状态语法作为一种刻画自然语言句法结构的模型是不合格的。
第五,有限状态语法只能说明语言中各个符号的前后排列顺序,而不能说明语言符号的层次,因此,它不能解释自然语言中的许多歧义现象。例如,在英语中,“They are flying planes ”这个句子有两个不同的意思:一个意思是“它们是正在飞的飞机”[试比较:Those specks on the horizon are flying planes(那些在地平线上的小黑点儿是正在飞着的飞机)];另一个意思是“他们正在驾驶飞机“[试比较:Those pilots are flying planes(那些飞行员正在驾驶飞机)]。这种意义上的差别,用有限状态语法得不到说明。可见,有限状态语法的对语言现象的解释力不强。

我的更多文章

下载客户端阅读体验更佳

APP专享