基于规则和统计相结合的中文命名实体识别研究_潘正高.pdf


立即下载 ⑩Ⅵ嵗D夨憶
2025-03-06
实体 命名 识别 自然 研究 文本 方法 中文 基金 项目
452.1 KB

文本是自然语言描述信息的最基本形式之一。
文本的有关处理技术是自然语言信息处理研究领域
的一个重要研究方向。在一篇文档中,命名实体作
为重要的信息元素,通常包含了该文档的主要信
息。因此,准确地识别命名实体是正确理解文档内
容的关键。同时,利用命名实体识别可以从文档中
提取出实体字符串,有利于在没有浏览全文的情况
下快速理解文章的主要内容。命名实体识别是文本
信息处理的基础性工作,研究命名实体识别的方法,
提高命名实体识别的准确性,对于文本信息处理研
究领域意义重大。
1 命名实体识别概述
命名实体(Named Entity, NE)【1】是指一些具体或
抽象的客观实体,例如人、组织、地点、时间等。文本
中的命名实体大多是以特定的专有名称出现的,例
如人名、组织名、机构名、地名等,也可以是时间、数
收稿日期:2011-11-14
基金项目:国家自然科学基金资助项目(60975034);安徽省自然科学青年基金项目(10040606Q64);安徽省高校省级自然科
学基金(KJ2012Z401);宿州学院科研开放平台项目(2011YKF10)
作者简介:潘正高(1978- ),男,安徽六安人,硕士,讲师,主要从事Web文本挖掘、自然语言处理研究.
基于规则和统计相结合的中文命名实体识别研究
潘正高
(宿州学院 信息工程学院,安徽 宿州 234000)
摘 要:介绍命名实体识别在文本信息处理领域的重要地位,分析了中文命名实体识别存在的困
难,介绍中文命名实体识别的一般过程、评价标准及方法。提出了一种在构造内部规则和外部规则
的同时采用概率统计的中文命名实体的识别方法,并利用这种基于规则和统计相结合的方法。实
验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性。
关键字:命名实体;文本特征;中文命名实体;识别
中图分类号:G350 文献标识码:A 文章编号:1007-7634(2012)05-708-05
Research on the Recognition of Chinese Named Entity Based on Rules
and Statistics
PAN Zheng-gao
(School of Information Engineering, Suzhou U


实体/命名/识别/自然/研究/文本/方法/中文/基金/项目/ 实体/命名/识别/自然/研究/文本/方法/中文/基金/项目/
-1 条回复
登录 后才能参与评论
-->