我可以告诉你有关数据挖掘的事情,因为我有关于数据挖掘的项目。数据挖掘不是一种工具,它是一种挖掘数据的方法和用于数据挖掘的不同工具是WEKA,RAPID MINER等。数据挖掘遵循许多算法,这些算法内置在Weka,Rapid miner等工具中。算法如聚类算法,协同算法等。 一个简单的例子,我可以为您提供数据挖掘。教师通过使用不同的教学方法,如使用黑板,演示,实践,在课堂上教授科学科目。所以现在我们的目标是找到适合学生的方法。然后我们做了调查,并采取学生的意见40名学生喜欢粉笔板,30喜欢演示,20喜欢实用的方法。因此,借助这些数据,我们可以制作例如科学主题的规则,应该用粉笔板方法来教授。 要使用不同的算法,您可以使用谷歌:D。
我将尝试从金字塔的顶部解释你:
的 商业智能 强> (你没有提到的)是IT中的术语,它代表一个复杂的系统,并从数据中提供有关公司的有用信息。
因此,BI系统具有 的 目标: 强> 清晰,准确和有意义的信息。 清洁意味着没有技术问题(缺少密钥,不完整的数据等)。准确意味着准确 - BI系统也被用作生产数据库的故障检查器(逻辑故障 - 即发票账单太高,或者使用非活动伙伴等)。它已经完成了 规则 。有意义很难解释,但在简单的英语中,它是你想要的方式的所有数据(甚至是上次会议的excel表)。
所以,BI系统有 的 后端 强> : 它的 的 数据仓库。 强> DWH只不过是数据库(实例,而不是软件)。它可以存储在RDBMS,分析数据库(列式或文档存储类型)或NoSQL数据库中。
的 数据仓库 强> 我上面解释的通常用于整个数据库的术语。可能有多少 的 数据集市 强> (如果使用了Kimball模型) - 更常见的,或称为第3个规范化形式(Inmon模型)的关系系统 的 企业数据仓库 强> 。
的 数据集市 强> DWH中的表是相关的(星型模式,雪花模式)。事实表(非规范化形式的业务流程)和维度表。
每 的 数据库 强> 代表一个业务流程。示例:DWH有3个数据集市。一个是零售,第二个是出口,第三个是进口。在零售中,您可以看到SKU的总销售额,销售数量,进口价格,利润(度量),日期,商店,城市等(维度)。
的 在DWH中加载数据 强> 叫做 的 ETL 强> (提取,转换,加载)。
从多个来源提取数据(ERP db,CRM db,excel文件,Web服务......)
转换数据(干净的数据,连接来自差异源的数据,匹配键, 的 我的数据 强> )
加载数据(在特定数据集市中加载转换后的数据)
的 因评论而编辑: 强> ETL过程通常使用ETL工具创建,或者使用某种编程语言(python,c#ect)和API手动创建。
ETL过程是一组SQL,过程,脚本和规则,分为3个部分(见上文),由元数据控制。 它可以安排(每晚,每隔几个小时)或实时(更改数据捕获,触发器,事务)。
的 OLTP 强> 和 的 OLAP 强> 是 的 数据处理的类型 强> 。 OLTP用于事务目的,数据库和软件之间(通常只有一种输入/输出数据)。 OLAP用于管理目的,这意味着有多个源,历史数据,高选择查询性能,挖掘数据。
的 因评论而编辑: 强> 数据处理是数据从数据库存储和访问的方式。因此,根据您的需求,数据库以不同的方式设置。
图片来自 http://datawarehouse4u.info/ :
的 数据挖掘 强> 是在大型数据集中发现模式的计算过程。挖掘的数据可以为您提供更深入的业务流程视图甚至预测。
的 分析 强> 是一个动词,在BI世界意味着 简单 从数据中获取信息。多维分析实际上说明了系统如何切割数据(维度在多维数据集内)。维基百科说 的 数据分析 强> 是一个过程 检查 以发现有用信息为目标的数据。
的 Analytics(分析) 强>是名词,它代表分析过程的结果。
不要对这两个词大惊小怪。