斯坦福阿拉伯语分段符不能做真正的词形还原。但是,有可能训练一个新的模型来做类似于词干的事情:
如果非常重要的是输出是真正的阿拉伯语引理(“???”不是真正的引理),那么使用像MADAMIRA这样的工具可能会更好( http://nlp.ldeo.columbia.edu/madamira/ )。
阐述: 斯坦福阿拉伯语分段器仅使用这些操作逐个字符地生成其输出(在 edu.stanford.nlp.international.arabic.process.IOBUtils ):
edu.stanford.nlp.international.arabic.process.IOBUtils
那么lemmatizing ????到?+ ????需要实施一个额外的规则,即在ya或ta之后插入一个alif。某些不规则形式的词形还原是完全不可能的(例如,????????????????????
可供下载的斯坦福分段器的版本也只是断开代词和粒子:
??????????锟?+?+ ??????? +?
但是,如果您可以访问LDC阿拉伯语树库或类似的丰富的阿拉伯语文本来源并注释形态分割,则可以训练您自己的模型以删除所有形态词缀,这更接近词形还原:
??????????锟?+?+?+ ???? +? +?
注意 ”????”不是一个真正的阿拉伯语单词,但是分段器至少应该始终如一地产生“????”对于??????? ,????? ,如果这是可以接受的,则需要更改ATB预处理脚本,而不是使用形态分割注释。您可以通过替换调用的脚本来完成此操作 parse_integrated 使用这样的修改版本: https://gist.github.com/futurulus/38307d98992e7fdeec0d
parse_integrated
然后按照自述文件中的“培训SEGMENTER”说明进行操作。
我不确定斯坦福NLP工具包是否有一个lammetizer,但你可以试试
Farasa Lemmatizer在准确性方面优于MADAMIRA Lemmatizer。准确率约为97.23%在词形还原任务中,它比MADAMIRA提供了+ 7%的相对增益。
您可以从以下链接中了解有关Farasa Lemmatizer的更多信息: https://arxiv.org/pdf/1710.06700.pdf