登陆可实现PC、移动端同步进度.

10

05

本周作业

2002 0 59

测试4

测试大礼包

爬虫实战特训课

本周作业

本周课程主要讲解Python网络爬虫的基础内容。具体有：网页信息解析库的使用（Xpath，BeautifulSoup，PyQuery），Fiddler抓包工具和浏览器的伪装介绍、Ajax的信息爬取和验证码的识别：

1）. 分页爬取豆瓣网图书Top250信息，并分别使用三种网页信息解析库（Xpath，BeautifulSoup，PyQuery），并将信息写入文件中：网址：https://book.douban.com/top250?start=0

2 ). 访问京东商城网址，选择多个商品放入购物车后查看自己的购物车，显示效果如下。请使用Python爬取京东商城网址购物车中的所有商品信息: 如URL地址：https://cart.jd.com/cart.action

3）. 访问百度图片网站，在搜索框中输入“街拍”并点击搜索按钮，具体效果如下，请使用python程序爬取搜索的图片，并存储到指定目录下。具体参考URL地址：http://image.baidu.com

二、解题提示：

第一道题请参考《豆瓣电影Top250信息爬取》实战。
采用浏览器伪装技术获取京东购物车信息（维持Cookie信息）
第三道题请参考Ajax数据爬取（如今日头条的美图爬取）。

三、批改标准：

a) 豆瓣图书Top250信息爬取（30分） b) 京东购物车商品信息爬取（30分） c) 百度图片的关键字“街拍”搜索图片信息爬取（30分）。 d) 其他项：(10分)（文件结构清晰，代码整洁，要求适量的注释）。

标签： PYTHON Python教程

59

你还没有登录，请先登录或注册！

还没有人评论，欢迎说说您的想法！

官方群

服务时间：