ISSN 1000-0054
CN 11-2223/ N
清华大学学报 (自然科学版)
J T sing hua Un iv ( Sci & Tech) ,
2011 年 第 51 卷 第 10 期
2011, Vo l. 51, No. 10
13/ 25
1300-1305
新浪微博数据挖掘方案
廉 捷1 , 周 欣2 , 曹 伟2 , 刘 云1
( 1. 北京交通大学 通信与信息系统北京市重点实验室, 北京 100044; 2. 中国信息安全测评中心, 北京 100085)
收稿日期: 2011-08- 15
基金项目: 高等学校博士学科点专项科研基金资助项目
( 20100009110002) ;
北京市自然科学基金资助项目 ( 4112045)
作者简介: 廉捷( 1985 ) ) , 男(汉) , 北京, 博士研究生。
通信作者: 刘云, 教授, E-mail: 08111004@ bjtu. edu . cn
摘 要: 随着新浪微博用户群体的增长, 新浪微博的数据获
取是微博研究首先需要解决的问题。该文提出了基于新浪
微博 API与基于页面解析的新浪微博数据获取方案。程序
逻辑控制 API调用方法与频率, 获取 JSON 对象并解析实现
高效数据获取。同时将传统的网络爬虫结合网页解析技术
结合 API同时使用,解决了因 API接口开放不完善, 且因在
返回结果数量上限与调用频率方面的限制,导致不能有效实
现新浪微博数据的全面获取的问题。经过实验测试, 通过 2
套方案的结合可以实现新浪微博数据高效全面的获取。
关键词: 新浪微博; 新浪 API; 数据检索; 网页解析
中图分类号: T P 391 文献标志码: A
文章编号: 1000-0054( 2011) 10-1300-06
SINA microblog data retrieval
LIAN Jie1 , ZHOU Xin2, CAO Wei2, LIU Yun1
( 1. Key Laboratory of Communication & Information Systems of
Bei jing Municipal Commission of Education,
Beijing Jiaotong Un
新浪/微博/数据/获取/API/解析/基金/项目/方案/2011/
新浪/微博/数据/获取/API/解析/基金/项目/方案/2011/
-->