基于规则与统计相结合的中文文本自动查错模型与算法_张仰森.pdf

立即下载 作者: Just do it
上传时间: 2025-07-25
关键词: 文本中文北京模型查错自动统计 Beijing 规则错误
大小 225.1 KB
描述

   中　文　信　息　学　报
第 20卷 第 4期　 JOURNALOFCHINESEINFORMATIONPROCESSING Vol.20No.4
文章编号:1003-0077(2006)04-0001-07
基于规则与统计相结合的中文文本自动查错模型与算法
＊
张仰森
1, 3 ,曹元大 2 ,俞士汶1
(1.北京大学计算语言学研究所 ,北京　100871;2.北京理工大学 计算机科学工程系 ,北京　 100081;
3.北京信息科技大学 计算机及自动化系 ,北京　100085)
摘要:中文文本自动校对是自然语言处理领域具有挑战性的研究课题 。本文提出了一种规则与统计相结
合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及 “非多字词错误 ”的概念 ,
提出一组错误发现规则 ,并与针对分词后单字散串建立的字二元 、三元统计模型和词性二元 、三元统计模型相
结合 , 建立了文本自动查错模型与实现算法。通过对 30篇含有 578个错误测试点的文本进行实验 , 所提算法
的查错召回率为 86.85%、准确率为 69.43%, 误报率为 30.57%。
关键词:计算机应用;中文信息处理;中文文本自动查错;规则与统计相结合;非多字词错误;真多字词错误
中图分类号:TP391.1　　　　文献标识码:A
AHybridModelofCombiningRule-basedandStatistics-based
ApproachesforAutomaticDetectingErrorsinChineseText
ZHANGYang-sen1 , 3 , CAOYuan-da2 , YUShi-wen1
(1.InstituteofComputationalLinguistics, PekingUniversity, Beijing100871, China;
2.DepartmentofComputerScienceandEngineering, BeijingInstituteofTechnology, Beijing, 100081, China;
3.Departmentofcomputerandautomation, Beijinginformationscience＆technologyUniversity, B

目录
文本/中文/北京/模型/查错/自动/统计/Beijing/规则/错误/ 文本/中文/北京/模型/查错/自动/统计/Beijing/规则/错误/

-1 条回复

登录后才能参与评论