1. 首页
  2. 人工智能
  3. 机器学习
  4. 爬取一定时间内的前程无忧岗位数据(例如青岛所有岗位的url为:https://jobs.51job.com/qingdaosnq/)

爬取一定时间内的前程无忧岗位数据(例如青岛所有岗位的url为:https://jobs.51job.com/qingdaosnq/)

上传者: 2020-06-06 19:43:50上传 PY文件 4.54KB 热度 21次
三、项目思路 1.爬取一定时间内的(如最近1个月的)前程无忧岗位数据(例如青岛所有岗位的url为:https://jobs.51job.com/qingdao-snq/),部分数据可以直接在搜索结果中获取,部分数据需要进入到岗位页面中获取。 2.将爬取的数据保存为本地文本文件(若学生掌握数据库相关知识则可以保存在数据库中)。 3.基于爬取的数据可以形成多种数据分析结果,例如:行业薪资、地区薪资、地区与行业分布关系、行业学历需求情况等。 4.“职位信息”字段可使用jieba分词库进行分词,基于分词结果可生成“词云”等成果物。 5.基于分词结果使用gensim模块训练词向量(涉及大量数
下载地址
用户评论