基于规则与统计相结合的中文文本自动查错模型与算法_张仰森.pdf
立即下载
Just do it
2025-07-25
文本
中文
北京
模型
查错
自动
统计
Beijing
规则
错误
225.1 KB
中 文 信 息 学 报
第 20卷 第 4期 JOURNALOFCHINESEINFORMATIONPROCESSING Vol.20No.4
文章编号:1003-0077(2006)04-0001-07
基于规则与统计相结合的中文文本自动查错模型与算法
*
张仰森
1, 3 ,曹元大 2 ,俞士汶1
(1.北京大学计算语言学研究所 ,北京 100871;2.北京理工大学 计算机科学工程系 ,北京 100081;
3.北京信息科技大学 计算机及自动化系 ,北京 100085)
摘要:中文文本自动校对是自然语言处理领域具有挑战性的研究课题 。本文提出了一种规则与统计相结
合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及 “非多字词错误 ”的概念 ,
提出一组错误发现规则 ,并与针对分词后单字散串建立的字二元 、三元统计模型和词性二元 、三元统计模型相
结合 , 建立了文本自动查错模型与实现算法。通过对 30篇含有 578个错误测试点的文本进行实验 , 所提算法
的查错召回率为 86.85%、准确率为 69.43%, 误报率为 30.57%。
关键词:计算机应用;中文信息处理;中文文本自动查错;规则与统计相结合;非多字词错误;真多字词错误
中图分类号:TP391.1 文献标识码:A
AHybridModelofCombiningRule-basedandStatistics-based
ApproachesforAutomaticDetectingErrorsinChineseText
ZHANGYang-sen1 , 3 , CAOYuan-da2 , YUShi-wen1
(1.InstituteofComputationalLinguistics, PekingUniversity, Beijing100871, China;
2.DepartmentofComputerScienceandEngineering, BeijingInstituteofTechnology, Beijing, 100081, China;
3.Departmentofcomputerandautomation, Beijinginformationscience&technologyUniversity, B
文本/中文/北京/模型/查错/自动/统计/Beijing/规则/错误/
文本/中文/北京/模型/查错/自动/统计/Beijing/规则/错误/
-->