题记 之前一直说要分析拉勾网的数据就去学了爬虫,学习爬虫的过程还是很有意思的,写了很多小玩意也遇到很多问题,把学习过程记录在博客里,还意外还赚了点点击量。(貌似有点跑题了,好了,我们回来)今天终于可以把分析报告写出来了。 Ps.想学爬虫的朋友可以去我的主页翻python爬虫系列文章,有图片,豆瓣,还有拉勾网爬虫的教程哈 拉勾网数据说明拉勾网的数据麻烦在是动态加载的,加上对显示数据有很强的限制,所以不可能爬下来完整的数据。(最近拉勾网是一次搜索最多显示0页,每页5条,这加起来一次搜索也就条信息不到,但是通过查看网络请求,可以发现,拉勾网一次搜索提供的数据是0多条。)所以我是通过多关键次多次爬取。采用的是拉勾首页提供的关键词,加上自己的添加。关键词列表如下(只涉及大部分的技术岗): 数据量总共数据量一共4w多条。分析直接采用的现成的统计工具(数说立方)生成结果,还挺方便。 工资处理由于拉勾网的工资数据是采用的工资范围的显示方式:0k-50k所以我记录了最小值和最大值,平均值直接采用最小值和最大值的平均(当然这肯定不准确,但是也有一定的参考意义) 分析报告好了,我知道大部分人只西宁治白癜风最好的医院好的中医白癜风医院
|