机器学习和NLP工程师的能力结构和学习路线.pdf

立即下载
银环蛇 | 上传时间: 2021-09-21 | 大小: 295.6 KB
学习/分类/模型/能力/工具/机器/标注/原理/QQ/交流/
版权所有:QQ 交流群 342942219
机器学习和 NLP 工程师的能力结构和学习
路线
学习目标:
所谓纲举目张,介绍一下机器学习和 nlp 工程师的能力模型,为学习者明确学习路线
图,为后面的学习明确方向。
1.说说面试
linux uniq sort sed awk 等命令灵活使用
二分查找 c语言版本 python 版本
快排
泰勒公式
输入法怎么组织词表
用过 hadoop 没有
推荐 app
lda 原理
word2vec 原理
kmeans 的 map reduce 实现
lr 模型参数估计
boosting 的过程
cnn 文本分类的过程
字典树分词函数
hadoop 大小表
其他人的面试题
lstm 编辑距离 最长公共子串
手推最大熵
版权所有:QQ 交流群 342942219
面试到技能目标
2.nlp 工程师的能力模型
2.1 编程基本功
python 和 c 或者 java 手写代码的能力
leetcode 类题目
shell 脚本熟练作用来处理文本
大数据方面 map reduce 思想解决具体任务
版权所有:QQ 交流群 342942219
2.2.机器学习原理和工具
终极目标
各种模型的原理 要能够手推
各种模型造轮子 python 手写
数学基础:
深刻理解原理 需要数学底子
机器学习传统理论
深度学习
实践工具
( numpy sklean pandas xgboost lightgbm libsvm liblinear weka 等)tensorflow(keras)
重要项目
Fasttext:facebook 短文本分类
gensim
word2vec
glovec
2.3.自然语言处理
知识点也很多
NLP 任务分类:
*序列标注问题
(命名实体 品牌词识别 中文分词(词性标注) 句法分析 新词发现)
*分类问题
(情感分析 行业分类 意图识别 )
*改写问题
(query 扩展 改写 纠错 翻译)
*生成问题
(自动写稿 自动写诗 文本摘要 聊天机器人 自动问答 )
工具:
序列标注经典工具:crf++
stanford corenlp
nltk spacy textblob
syntaxne
-1 条回复
登录 后才能参与评论