云计算大数据10.9日课腾讯邮箱垃圾邮箱解密-机器学习之贝叶斯分类.pdf

立即下载
老夫的少女心 | 上传时间: 2021-09-20 | 大小: 1.4 MB
学习/频域/机器/信号/时间/音乐/数据/时域/正弦/算法/
反垃圾邮件系统核心解密
讲师(yasaka)陈老师
机器学习
• 机器学习理论主要是设计和分析一些让计算机可以自动学习的算法。
• 机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知
数据进行预测的算法。
• 监督学习
分类(做出单一决策)
推荐(选择许多可能,并对其进行排序)
• 无监督学习
聚类
机器学习
• R
• Python
• Mahout
• Spark MLlib
Python机器学习
• Scikit-Learn是基于python的机器学习模块
• Scikit-Learn中的机器学习模型非常丰富,包括SVM,决策树,
GBDT,KNN等等,可以根据问题的类型选择合适的模型
• 安装scikit_learn
Scikit-learn
音乐分类
• 数据集(音乐数据)
• 算法使用(scikit-learn中的logistic regression)
• 期望结果(输入一首歌,可以对输入的歌曲进行分类)
音乐数据
• 分类型存在文件夹中
• 以先把一个wma文件读入python,然后绘制它的频谱图
(spectrogram)来看看是什么样的jazz
音乐数据
• 可以把每一种的音乐都抽一些出来打印频谱图以便比较,如下图:
时域
• 什么是时域???
• 从我们出生,我们看到的世界都以时间贯穿。
• 股票的走势、人的身高、汽车的轨迹都会随着时间发生改变。
• 这种以时间作为参照来观察动态世界的方法我们称其为时域分析。
• 而我们也想当然的认为,世间万物都在随着时间不停的改变,并
且永远不会静止下来
频域
• 什么是频域???
• 频域(frequency domain)是描述信号在频率方面特性时用到的一种
坐标系。用线性代数的语言就是装着正弦函数的空间。
• 频域最重要的性质是:它不是真实的,而是一个数学构造。
• 正弦波是频域中唯一存在的波形,这是频域中最重要的规则,即
正弦波是对频域的描述,因为时域中的任何波形都可用正弦波合
成。
Time Domain vs Frequency Domain
傅里叶变换
• 对于一个信号来说,信号强度随时间的变化规律就是时域特性,
信号是由哪些单一频率的信号合成的就是频域特性。
• 时域分析与频域分析是
-1 条回复
登录 后才能参与评论