第3天-爬虫实践篇

学习目的:

  • 培养解决问题的思路

  • 编码解码的理解

解决问题的思路?

  • 如何判断需求数据在哪?

    A) 静态数据,可通过查看网页源代码

    B) 定位具体哪一个url请求,抓包,在Fidder里面找,怎么快速定位我要的数据呢?(通过Body大小,除了图片之外的Http请求)

  • 判断是什么请求方式?Get还是Post

    在Composer raw 模拟发送数据

    A) 删除Header信息(为什么删除?代码简介美观、易于理解)

    B) 如果做翻页,最好拿第二三页做测试,不要用首页(因为什么?有时候第二页是Post请求,而第一也是静态Get请求;并且拿第二页测试的时候返回的是第一页,容易错误还不自知)

  • 参考案例Get、Post案例

    写python程序

  • 确认返回数据是什么格式的,返回json还是html

    A) 那如果是json呢,格式化数据,应该做存储; B) 那如果是html呢,提取数据,使用XPath、CSS选择器、正则表达式

Get和Post

  • 右键查看源代码和 F12 Elements区别 右键查看源代码:实质是一个Get请求 F12 Elements是整个页面 所有的请求url 加载完成的页面

  • GET 和Post区别的方法 为什么拉钩用的Post,不是表单提交密码,原因是Post用户体验更好;局部加载