登陆可实现PC、移动端同步进度.
本周作业
一、 问题描述:
-
本周课程主要讲解Python网络爬虫的基础内容。具体有:Python中的正则表达式,网络爬虫基础,以及urllib、urllib3和requests库的使用。本周闯关作业具体如下:
-
1).分别使用userlib和requests爬取有道翻译的信息,要求输如英文后获取对应的中文翻译信息:
-
2 ). 分页爬取58同城的租房信息,信息内容要求有:【标题、图片、户型、价格】,并且获取指定页的所有租房信息: 如URL地址:http://bj.58.com/dashanzi/chuzu/pn1/?ClickID=1
- 3). 爬取猫眼电影中榜单栏目中TOP100榜的所有电影信息(10页信息全部爬取),字段要求【序号、图片、电影名称、主演、时间、评分】,并将信息写入文件中: 具体参考URL地址:http://maoyan.com/board/4
二、 解题提示:
-
有道翻译信息的爬取可参考本周百度翻译信息爬取案例。
-
58同城的租房信息获取,首先先确定URL地址,编写爬虫程序,要使用正则表达式解析爬取的信息。
-
爬取猫眼电影中榜单栏目中TOP100榜的所有电影信息,首先却动url地址(分页获取),使用正则解析每页的信息,并将信息写入文件。具体代码实现可以参考笔记整理。
三、 批改标准:
- a) 有道翻译信息爬取(30分)
- b) 58同城的租房信息爬取(30分)
- c) 猫眼电影TOP100榜单信息爬取(30分)。
- d) 其他项:(10分)(文件结构清晰,代码整洁,要求适量的注释)。
- 还没有人评论,欢迎说说您的想法!