SO的问题太广泛了,但我会尝试从理论上回答: ML中唯一的问题是对看不见的数据有一个很好的概括,它有一些模式,因为只有在你之前学到了一些关于分布的东西之后,你才能获得一些关于新的看不见的数据的信息(预测标签,集群)。从理论上讲,您可以强制机器学习相对于可用功能具有非随机分布的任何任务,但您需要有足够的数据以获得所需的精度。这就是为什么它在实践中有时是不可能的。因为要捕获硬分布规则,您需要具有大的变化(更通用)或更具体(但它包括您自己的数据知识)模型,并且要学习此模型而不过度拟合,您需要拥有大数据集,对于所有这些你需要拥有强大的计算资源等等。
如果您对理论方面的更详细解释感兴趣,可以从此开始观看caltech的讲座 CaltechX - CS1156x从数据中学习 。
还有理论方程来预测模型相对于可用数据量的泛化能力: Vapnik's hervonenkis理论 Akaike_information_criterion