本周作业

  • 本周课程主要讲解Python网络爬虫的基础内容。具体有:网页信息解析库的使用(Xpath,BeautifulSoup,PyQuery),Fiddler抓包工具和浏览器的伪装介绍、Ajax的信息爬取和验证码的识别:

1). 分页爬取豆瓣网图书Top250信息,并分别使用三种网页信息解析库(Xpath,BeautifulSoup,PyQuery),并将信息写入文件中: 网址:https://book.douban.com/top250?start=0

2 ). 访问京东商城网址,选择多个商品放入购物车后查看自己的购物车,显示效果如下 。请使用Python爬取京东商城网址购物车中的所有商品信息: 如URL地址:https://cart.jd.com/cart.action

3). 访问百度图片网站,在搜索框中输入“街拍”并点击搜索按钮,具体效果如下,请使用python程序爬取搜索的图片,并存储到指定目录下。 具体参考URL地址:http://image.baidu.com

二、 解题提示:

  • 第一道题请参考《豆瓣电影Top250信息爬取》实战。
  • 采用浏览器伪装技术获取京东购物车信息(维持Cookie信息)
  • 第三道题请参考Ajax数据爬取(如今日头条的美图爬取)。

三、 批改标准:

a) 豆瓣图书Top250信息爬取(30分) b) 京东购物车商品信息爬取(30分) c) 百度图片的关键字“街拍”搜索图片信息爬取(30分)。 d) 其他项:(10分)(文件结构清晰,代码整洁,要求适量的注释)。