中文命名实体识别的研究.pdf


立即下载 文艺青年
2024-07-12
模型 识别 CRFs 特征 概率 实体 命名 方法 中文 条件
2.5 MB

大连理工大学
硕士学位论文
中文命名实体识别的研究
姓名:丁卓冶
申请学位级别:硕士
专业:计算机应用技术
指导教师:黄德根
20081218
人连理I:人学硕十学f声论文
摘 要
中文命名实体识别是自然语言‘处理的基础任务,是机器翻译、信息检索、问答系统
等技术的基础,研究并实现有效的中文命名实体识别方法是本文的主要研究内容。
本文主要采用基于机器学习的方法完成命名实体识别任务。
首先,通过分析中文人名、地名的特点,以抽取合适的特征;定义科学的特征模板,
并建立了一种基于条件随机场(Conditional Random Fields,CRFs)的中文命名实体识别模
型。通过对CRFs的识别结果进行分析,发现CRFs模型中给出的错误标记大都拥有较小的
边缘概率,用边缘概率定位到CRFs模型中可能的错误标记,并分别引入了概率统计方法和
边界模板的方法对这部分标记迸行修正,以优化系统的识别效果。实验证明,这两种混合模
型的识别效果明显好于单纯的CRFs方法。
另外,提出一种基于Max.Ma画n Markov Networks模型的地名识别方法。Max.Margin
Markov Networks模型将Max.Margin的思想应用于马尔可夫网络。它综合了支持向量机
(Support Vector Machine,SVM)模型和无向图模型的优点。通过地名识别的实验证明,
在相同的语料、特征和特征模板的条件下,基于Max.Margin Markov Networks模型的识别
效果好于CRFs和SVM模型。
最后,提出了一种基于概率特征函数的CRFs模型。CRFs模型是目前最优秀的机
器学习模型之一,它定义的特征函数全部是0、1二值形式的,导致丢失一些有用的概
率信息。本文在定义特征函数时融入了概率信息,以强化模型的学习能力,然后基于概
率特征函数构造条件随机场。通过命名实体识别的实验证明,在相同的条件下,基于概
率特征函数的CRFs比传统的CRFs具有更好的机器学习能力。
本文的研究成果可应用于其它自然语言处理任务中。
关键词:自然语言处理;命名实体识别;支持向量机;条件随机场
人迎理I:人学硕}学伊论文
A Study on Chinese Named Entity Recognition
Abstrac


模型/识别/CRFs/特征/概率/实体/命名/方法/中文/条件/ 模型/识别/CRFs/特征/概率/实体/命名/方法/中文/条件/
-1 条回复
登录 后才能参与评论
-->