项目作者: bat-battle

项目描述 :
分享大数据、机器学习课程相关的课堂笔记,包含python实现的高并发demo
高级语言: Python
项目地址: git://github.com/bat-battle/BAT-ML.git
创建时间: 2017-12-05T05:54:21Z
项目社区:https://github.com/bat-battle/BAT-ML

开源协议:

下载


大数据&机器学习

分享大数据、机器学习课程相关的课堂笔记,python实现的高并发demo

linux基础课程(共计45课时)

课程目标:常见命令、配置、文件系统等,如

linux拔高课程(共计40课时)

课程目标:掌握linux下开发、配置、及多种调试和定位问题工具

操作系统(共计60课时)

课程目标:了解多进程、多线程、超线程、微线程、协程、进程调度的前世今生及多种进程间的通信机制、TCP/IP协议栈、内存管理、信号、中断机制等核心模块

网络编程(共计90课时)

课程目标:深入理解网络模型及其设计原理、适用场景。并对比源码刨析(epoll、select、poll、/dev/poll、kqueue、iocp等)

数据结构算法(共计60课时)

课程目标:

分类算法

KNN、决策树、随机森林、朴素贝叶斯、SVM (Support Vector Machine)、Logistics Regression、Ensemble methods;

降维算法

PCA、Isomap、SVD (Singular Value Decomposition)、ICA (Independent Component Analysis);

回归算法

最小二乘法、线性回归、聚类算法、KMeans、GMM

Python学习(共计36课时)

  1. Python环境安装(建议Anaconda 2.7pipvirtualenv
  2. Python基本语法使用和常见工具包等
  3. requestjsoneventletsocketmultiprocessingthreading
  4. NumpyPandasMatplotlib

大数据常用组件学习(共计40课时)

  1. Hadoop家族(HadoopHiveHbaseHDFS等)
  2. SparkSpark SQLSpark StreamingSpark ML
  3. ELKElasticsearchLogstashKibana

项目实战(共计40课时)

《音乐推荐系统》

  1. [项目描述]
  2. 利用机器学习中的分类算法构建构建一个(基于歌词)音乐推荐系统。
  3. [准备工作]
  4. Million Song Dataset获取歌曲数据.
  5. LyricWikia自动获取歌曲歌词信息。
  6. [涉及技术]
  7. sqlite3Flask框架、随机森林、朴素贝叶斯等分类算法。

《个人征信-360度画像》

  1. [项目描述]
  2. 利用监督机器学习算法训练数据模型,发布数据模型。合理高效存储海量
  3. 用户个人征信评级数据,提供RESTful统一访问接口供数据可视化。
  4. [准备工作]
  5. 构造&提取海量数据(1TB+)
  6. 数据预处理、清洗、归一化
  7. [涉及技术]
  8. HadoopHDFSHBaseSparkMySQL/MongoDBElasticSearchKylinKibana

历年校招笔试题讲解(共计20课时)

课程目标:熟悉各大企业招聘笔试题型及考察知识点,查漏补缺

模拟面试(共计15课时)

课程目标:把零散知识体系化,提高面试沟通技巧