基于规则的命名实体识别研究.pdf


立即下载 特狼普
2024-06-10
命名 识别 实体 分词 规则 中文 层次 研究 word 领域
2.4 MB

合肥工业大学
硕士学位论文
基于规则的命名实体识别研究
姓名:周昆
申请学位级别:硕士
专业:计算机软件与理论
指导教师:胡学钢
20100401
基于规则的命名实体识别研究
摘 要
中文分词是自然语言处理的第一步。在实际应用中,分词受到诸多因素的
制约,未登录词的切分就是影响分词正确率的重要因素之一。未登录词主要的
形式包括人名,地名,机构名等命名实体。因此,将命名实体的识别融合到中
文分词的过程中,对提高中文分词的准确率起着重要作用。另外,命名实体识
别的研究对于信息抽取、信息检索、机器翻译、文本分类等应用系统的实现具
有重要的理论意义和实践价值。
本文的主要研究内容如下:
(1)提出了融合命名实体识别的中文分词模型,在分词的过程中同时进行
命名实体的识别,减少了因为命名实体等未登录词的识别错误而引起的中文词
法切分错误,从而提高了分词的准确率。
(2)基于本体构建中文人名知识库的层次分类体系;将中文人名领域的知
识分成若干个层次,低层次的领域知识是高层次的基础,高层次的领域知识是
低层次的概括和总结,有效提高了人名知识库的可维护性。
(3)构建命名实体识别的规则库,采用规则匹配的方法识别命名实体。识
别系统具有自学习的能力,在识别命名实体的同时可以分析识别结果生成新的
规则反馈给规则库,具有较好的命名实体识别的效果。
关键词;中文信息处理;命名实体识别;中文分词;本体
Research on Named Entity Recognition Based on Rules
Abstract
ChlneSe word segmentation is the first step in natural language processing.In
practice,Chinese word segmentation subject to many constraints,unknown word is
one of the important factors impact the accuracy.Unknown words mainly contains
person’S name,place name,organization name and other named entity.Therefor


命名/识别/实体/分词/规则/中文/层次/研究/word/领域/ 命名/识别/实体/分词/规则/中文/层次/研究/word/领域/
-1 条回复
登录 后才能参与评论
-->