基于肢体语言的语用标注(硕士学位论文摘要)

到目前为止,句法和语义研究在计算语言学范围内已经有了较为成熟的发展。而语用研究则相对落后,尤其是非语言的行为,特别是肢体语言常常被学者忽略。关于“肢体语言”的定义和分类很多,在本文中笔者使用肢体语言的两层含义:一方面可以指伴随语言或者单独使用的表达某种含义的手势、姿势及面部表情;另一方面也可以专指手语,即聋哑人用的语言。

肢体语言的第一层意思对语言理解起辅助作用,可以删除歧义。肢体语言第二层意思,对聋哑人来说,肢体表达是唯一的沟通工具,所以为了让他们成为社会群体中的一员并消除交流的障碍,手语也应该得到更为深刻的研究。

kitay.jpg

自然语言处理的第一步是语言的形式化。在一般的情况之下,形式化指的是标注。对文本处理来说,这已经不是难题,可是肢体语言的载体是视频,处理视频比处理文本复杂,所以长期以来从计算语言学角度研究肢体语言的文章比较少。到目前为止,肢体语言的研究着重于描述,而其形式化方面的研究较弱,不合适用于计算语言学。

本文借用成分分析的概念对肢体语言进行形式描述并标注。成分分析将研究对象(本文中是某个手势)分解为若干成分。对肢体语言来讲,这些成分包括打手势的身体部位、打手势的位置、动作的方向等成分。该方法具有如下的优点:

 

  • 客观性:表达者的个人特点或其文化背景等因素不会影响到分析和描述;      
  • 普遍性:该方法不考虑到手势的意思,因此它可用于任何国家的肢体语言和手语的分析;
  • 可调整性:应用的成分比较独立,它们之间不存在互相依赖关系,所以如果研究中发现,现有的成分不够描述某种手势时,可以添加新的成分而不会影响已有成分的理解。相反来说, 如果为了开发目的,本文用的成分太多了,将不需要的可以去掉,也不会影响到其它成分和研究结果(比如说,对手语进行标注,需要更多的成分,因为打手语时,每个动作较为复杂并细,所以为了更正确地描述它,需要用更多的成分,而肢体语言没有那么复杂,所以成分不用那么细,也不用那么多);
  • 形式化较强:研究结果为二位进制的标注集,可直接用于程序的开发。 

本文不仅对肢体语言进行了深刻研究,而且对未来的研究和开发提供了理论与参考基础。本文结果已应用于若干国家级和清华大学的项目。