!""!#"#! 计算机工程与应用
!数据库与信息处理!
!!!!!!!!"!
"!!!!!!!!"!
"
" 背景介绍
自然语言的处理是一个很庞大的工程"由于汉语语法的复
杂性"到目前为止还没有一个非常有效的方法能够消除自然语
言分析中的歧义问题# 目前"自然语言的处理主要有以下几种
方法$基于关键字匹配的方法%以句法$语义分析为主的方法%
基于大规模语料库的自然语言处理#然而这几种方法由于自身
的特点无法避免地都存在着弊端# 基于关键字匹配的方法是$
种近似匹配技术"主要的缺点是分析技术不精确"会导致很多
的错误# 以句法$语义分析为主的方法"分析起来很复杂# 而基
于大规模语料库的自然语言处理"则是一个庞大的工程"不适
合于工程应用#随着自然语言的处理越来越趋向于实用化和工
程化"我们必须提供一种高效准确的方法来识别自然语言# 为
此我们提出了一种基于模式匹配的自然语言处理方法"它能够
处理任何一个特定领域的自然语言# 比如下面提到的短信业
务"往往只是针对某一个特定领域的#
短信服务是当前移动通讯的一个增值业务"很多网站包括
电视台的一些栏目"都支持短信与系统的互动交流# 但互动交
流都显得有很大的局限性"短信必须以预先设定好的格式来发
送"否则电脑将无法识别#然而但是为了电脑处理的方便"这种
服务局限性太大"在大多数的情况下"当我们想了解某种信息
的时候"或者想发布某条信息到网站上的时候"我们更习惯于
用自然语言的方式通过短信发送给系统"这就需要系统能够对
自然语言进行识别"从中提取某些关键信息进行处理"从而理
解用户的需求"跟用户进行交流# 正是由于自然语言识别这一
难题给用户和系统的交流带来了很大的障碍#
我们项目组在开发北京市失物招领系统的过程中"要实现
通过手机短信的方式"把拾主捡到的物品信息通过手机短信的
方式发送给我们的爱心平台"然后发布到网上# 如果对于每一
条用户发送的信息"都人工地进行分析"从中找出捡到物品的
名称"捡到的时间以及捡到的地点"这将是一个非常繁重的任
务"如何利用计算机快捷的计算速度来解决这一问题呢& 这就
只能寄希望于高效准确的自然语言识别了#
起初"我们用传统的模糊识别方法来解决这一问题"先把
物品列表’地点列表放入数据库中"然后对输入的语言进行
自然/语言/方法/识别/分析/系统/捡到/发送/交流/用户/
自然/语言/方法/识别/分析/系统/捡到/发送/交流/用户/
-->