统计数据侧重于数据分析的所有方面,如描述性,探索性,推理性,预测性和因果性。但是,机器学习只关注预测建模。
我可以看到一些重要的差异:
的 #范围 强> :机器学习使用统计模型,但它也使用其他模型,如动态规划,强化学习,来自人工智能或优化的技术。
的 #观点看法 强> :统计通常关注估计量的属性(无偏性,渐近行为),机器学习主要关注现实世界问题的解决方案。
的 #Reasearch字段 强> :虽然统计学可以看作应用数学的一个子领域,但机器学习可以看作是计算机科学的一个子领域。
的 #Code开发和应用 强> :虽然使用统计数据的人通常对R(或SAS,STATA,EVIEWS)有一个偏好,但使用机器学习的人通常选择Python(或其他结构化编程语言)
机器学习是
一种可以从数据中学习而不依赖于基于规则的编程的算法。
计算机科学和人工智能的一个子领域,涉及可以从数据中学习的构建系统,而不是明确编程的指令。
统计建模是
以数学方程的形式形式化变量之间的关系。
数学子字段,用于查找变量之间的关系以预测结果
机器学习系统是真正的学习系统,如果它没有被编程为执行任务,而是被编程为学习执行任务。这是一项数据驱动的练习。现代机器学习不依赖于丰富的算法技术。这种形式的机器学习的几乎所有应用都基于深度神经网络。这是我们现在倾向于称之为深度学习的领域,这是机器学习的专业化,并且经常应用于弱人工智能应用程序,其中机器执行人工任务。
两者之间没有太大的区别,而且主要是文化差异。机器学习来自计算机科学的根源而统计学则更具数学性。有一个很好的博客帖子叫 “统计与机器学习,战斗!” 由Brendan O'Connor谈论这一点。
至于机器学习的非统计方法,有几种基于规则的方法(决策树,规则归纳,ILP),还有一些方法,如控制问题的强化学习。那些没有 感觉 对我来说非常统计,但你可以声称他们是......如果你愿意的话,你可能会声称所有生命都属于统计决策理论(事实上, 马库斯哈特 一样)。
在ML中,我们的想法是为这种情况建立一个单独的模型,在这种情况下,您拥有数据而不是数据。
另一方面,统计数据是保留您拥有的数据并获得最佳数据结果。
的 不同之处在于哲学会影响你如何处理异常值。 强> 在ML中,你出去寻找足够的异常值,这些异常值可以成为你可以实际训练的东西。
你可以用统计数据说:“我已经掌握了所有可以收集的数据。”所以,你抛弃异常值。这是一个哲学上的差异,因为使用ML和统计的场景。
统计数据通常用于有限的数据体系,或ML运行时有大量数据。
也许有必要指出类似的问题正在讨论和讨论 交叉验证
统计数据基于概率模型。典型的分析首先假设您的数据是来自具有某种分布的随机变量的样本,然后对分布的参数进行推断。
机器学习 可以 使用概率模型,当它发生时,它与统计数据重叠。但机器学习并非如此致力于概率。它也愿意使用其他不基于概率的问题解决方法。