相关的2克(在这种情况下是肺癌)将按频率出现。 想象一下以下文字:
我知道患有肺癌的人:肺癌是一种可怕的疾病。
如果你列出2克,你会先以肺癌结束;和其他组合('有龙';'讨厌龙')第二。 这是因为某些单词组代表某些东西 - 因此被重复调用 - 而其他单词只是形成2克“情况”的连接符('有'或'讨厌')。关键是按频率过滤。
如果您在生成n-gram时遇到问题,我觉得您可能使用了错误的库/工具集。