我认为Naive Bayes可以为您提供见解。还有一种方法,就是找出将这些书分开的功能 1.文字的复杂性,一些作家易于理解和使用常用词,我暗示IDF(逆文档频率) 有些词在他的时代甚至可能不存在,如“自拍”,“移动”等。
尝试找到很多这样的功能,也可以训练一个有辨别力的分类器。