03-Methodology-opt.pdf


立即下载 是吗@
2025-04-11
数据 组学 数据库 计算 分析 Peking Bioinformatics Center 2016 Copyright
1.8 MB

© Copyright 2016 Center for Bioinformatics, Peking University
组学大数据资源与方法
北京大学
生命科学学院生物信息中心
高歌 (gaog@mail.cbi.pku.edu.cn)
生物医学大数据
© Copyright 2016 Center for Bioinformatics, Peking University
组学大数据资源与方法(12学时,教师:高歌)
• 概述:组学数据分析的挑战与机遇
• 组学数据的历史、现状与发展趋势
• 数据分析的挑战与机遇
• 组学数据资源
• 一次数据库:概念、历史沿革与分类
• 国际主流一次数据库介绍(如NCBI SRA, GEO; EBI ENA, ArrayExpress等)
• 从数据库到知识库(knowledgebase)
• 国际主流知识库介绍(如RefSeq, SwissProt, InterPro等)
• 数据分析方法
• 大数据对计算设施(infrastructure)的挑战:计算密集型/数据密集型
• 硬件:高性能计算(超算、GPU、MIC…);
• 软件:云计算/并行程序设计、数据库(SQL->NoSQL)
• Statistical Modeling vs Statistical Learning
• 数据信息知识
• Case Study
• 数据的应用:计算模型与生物学
• 结合1~2实例介绍组学大数据分析在生物学研究中的应用
© Copyright 2016 Center for Bioinformatics, Peking University
大数据
• 数据量大
• 增长速度快
• 高度异构
© Copyright 2016 Center for Bioinformatics, Peking University
log2(bp) = -4.6×10
3 + 2.3y
R2 = 0.97, p-value < 2.2×10-16
2010-2013年三年增加100倍
数据量每五个月翻一番
1977-2014 价格持续下降
Human Genome $2.7B -> $1K: 2,700,000x
新一代测序技术带来基因组数据的
爆炸性指数增长


数据/组学/数据库/计算/分析/Peking/Bioinformatics/Center/2016/Copyright/ 数据/组学/数据库/计算/分析/Peking/Bioinformatics/Center/2016/Copyright/
-1 条回复
登录 后才能参与评论
-->