PAI指南2018-02-28.pdf

立即下载
电动少女 | 上传时间: 2021-09-20 | 大小: 7.9 MB
数据/分区/输入/组件/参数/同步/机器/学习/读取/分区表/
机器学习PAI
机器学习组件说明

机器学习组件说明


源/目标


目录

读数据表

写数据表

Mysql数据同步

OSS数据同步


读数据表

读取Maxcompute的表数据组件,默认读取本工程下的数据;若读取其他工程的表数据且拥有该project的操作
权限),只需在表名前添加工程名,格式:工程名.表名,如:tianchi_project.weibo_data当输入表后,会自动
读取表的结构数据,可点击字段信息查看。MaxCompute表字段修改后,如增加或删除某个字段,在算法平台
中是无法感知的,需要用户重新设置一下MaxCompute源,reload一下这个表信息。

若输入表是分区表,后台会自动勾选分区框,用户可选择或输入分区参数,目前仅支持输入单个分区。不勾选
分区框或勾选后不输入分区参数均默认为输入全表。若输入表是非分区表,分区框不可勾选

读MaxCompute表的输入框

机器学习PAI 机器学习组件说明
1

左上角为创建odps表的功能;

分区功能介绍

PAI的读数据组件包含读取分区表的功能,在日期定义上与大数据开发套件略有不同。PAI在读取分区表时需要
指定dt=@@{yyyyMMdd},其中@@{yyyyMMdd}表示当前日期,@@{yyyyMMdd-1d}表示当前日期前一天


写数据表

写入MaxCompute表的数据组件,同样支持写入其他工程的表数据。写入表数据不支持分区操作

Mysql数据同步
机器学习PAI 机器学习组件说明
2
-
功能说明

同步Mysql 数据到MaxCompute 项目

参数说明

ps:由于CDP服务是对外服务,不支持集团内部数据同步,集团内部数据同步请走数据同步中心或者datax

如何获取组件参数

1. 登录aliyun.com,使用主账号登录,切换到rds控制台,如下图所示,获取rds的
accessKey 和 获取实例名称

参数名称 参数描述 取值范围 是否必选,默认值/行为
source cdp 同步数据源标识,常量为 cdp_my
-1 条回复
登录 后才能参与评论