如问题评论中所述, I want to calculate the likelihood of a certain class to appear based on the given distribution of the training set , 的 问题是微不足道的,几乎不是机器学习的问题 强> : 只需计算“训练集”中Countd12,Count_34,... Count_910中每个类的出现次数。给定类xy出现的可能性简单地由下式给出
I want to calculate the likelihood of a certain class to appear based on the given distribution of the training set
P(xy) = Count_xy / Total Number of elements in the "training set" = Count_xy / (Count_12 + Count_34 + Count_56 + Count_78 + Count_910)
的 一个更有趣的问题...... 强> ......将考虑训练集 作为一个序列 并猜测该序列中的下一个项目是什么。然后,下一个项目来自给定类别的概率不仅基于该类别的先验(上面计算的P(xy)),而且还将考虑序列中在其之前的项目。然后,这个问题的一个有趣的部分是弄清楚如何“远远”看起来和“重量”给予前面的项目序列。
的 编辑 强> (现在OP表示他/她对“更有趣的问题”感兴趣)。 这种“预测给定前序列”问题几乎直接映射到 的 机器学习算法用于预测事件顺序StackOverflow 强> 题。 稍有不同的是,这里的字母表有10个不同的代码(在另一个问题中有4个)以及我们在这里尝试预测a的事实 类 代码,而不仅仅是代码本身。关于这个聚合,这里每个类2个代码,我们有几个选项:
我个人的选择是首先尝试使用代码预测器(仅在最后聚合),如果从初始尝试中获得的某些洞察力告诉我们逻辑或其性能可以简化或改进,可能会从那里进行调整。我们先收集。实际上,可以使用相同的预测器来尝试两种方法,只需要改变输入流,用它前面的奇数替换所有偶数。我猜测,当我们提前聚合时,有价值的信息(用于猜测即将到来的代码)会丢失。