使用深度神经网络进行CTR预测.pptx


立即下载 文艺青年
2024-04-19
数据 文件 操作 学习 PAI capacity 机器 推荐 读取 深度
2.9 MB

使用深度神经网络进行CTR预测
万千钧
传统机器学习和深度学习的区别
在大多数情况下, 我们拥有的数据只有几百到几千条, 甚至在医疗领域, 有可能数据只有100来条, 这时, 传统机器学习是一个很好地选择.
但在数据量很多的情况下, 如几万到几百万的情况下, 深度学习效果普遍好于传统机器学习.

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。深度学习有一个令人振奋优点, 它可以自动的从数据中提取特征.
上周分析的CTR点击预测, 使用GBDT与LR融合的方式, 维持在AUC 88% 上下, 而今天, 我们使用同样的数据, 构造一个简单的神经网络, 就可将AUC提高到97%.
数据准备
1
PAI 文件操作
2
PAI 上实验
3
数据
关于数据读取代码都在read.py
数据准备
1
PAI 文件操作
2
PAI 上实验
3
2
1
PAI文件操作
1. 与压缩包一起上传 (数据不多的时候推荐)
优点: 简单, 方便, 可以方便使用第三方库, 省钱(后面讨论)
缺点: 不灵活
2. 上传到OSS (数据量多的时候推荐)
优点: 可以把数据拆分成多份上传, 方便灵活
缺点: 必须使用TensorFlow文件操作API, 会有额外的费用开支(后面详细介绍)
PAI文件操作
TensorFlow读写OSS文件
https://www.tensorflow.org/versions/r1.3/api_docs/python/tf/gfile
PAI文件操作
准备工作
少量读取
大批读取(推荐)
batch_size: 批大小, 每次运行这个batch, 返回多少个数据
num_threads: 运行线程数, 在PAI上4个就好
capacity: 随机取队列范围, 比如你的数据集有10000个数据, 你想从5000个数据中随机取, capacity就设置成5000.
min_after_dequeue: 维持队列的最小长度, 这里只要注意不要大于capacity即可
https://www.tensorflow.org/versions/r1.3/api_docs/python/tf/train/shuffle_batch
关于付费
资费项 计费项 标准型单价 低频访问型单价 归档型单价
存储费用 数据存储 0.1


数据/文件/操作/学习/PAI/capacity/机器/推荐/读取/深度/ 数据/文件/操作/学习/PAI/capacity/机器/推荐/读取/深度/
-1 条回复
登录 后才能参与评论
-->