编写python爬虫用到一些实用chrome拓展和工具

1.chrom拓展
1.1 Chrome Regex Search
方便你快速利用正则表达式查找网页中元素,也可以检查自己正则表达式是否书写错误。
re.png

1.2 JSON-handle
格式化json信息,并且鼠标指到指定元素时有path
path.png

1.3 Toggle JavaScript
关闭网页中所有JavaScript动态加载,方便查找元素和检查是否为动态加载
1.4 XPath Helper
查找验证网页中xpath路径,标注出结果
xpath.png


2.网站类
在我写一个爬虫时,提交post请求时,所传参数都是正确的就是得不到返回结果(后来发现时一个字符打错了),询问大佬后才知道可以利用chrome开发者工具复制下curl的代码最后转python代码这样就不会出错了,而且避免反复造轮子浪费时间。

curl.png
copy完后可以去终端验证下,发现没问题
curl2.png
最后再利用工具网站直接转换就可以了,大佬已经帮忙把工具写好了,感谢大佬我去点个start。
curl3.png

https://curl.trillworks.com/
将curl语法转换为Python,Ansible URI,MATLAB,Node.js,R,PHP,Strest,Go,Dart,JSON,Elixir,Rust



下面记录下这两天遇到知识盲区:
常用三种提取数据方式的对比

比较.png
后来才发现xpath比bs4来的快。

除了用将json格式数据解码为python对象
json转dict外,jsonpath和Xpath异曲同工之处,都是通过路径查找好像更简洁些。
通过网上示例来练习JSONPath表达式。我们从一个表示书店(原始XML文件)的XML示例之后构建的简单JSON结构开始。

{ “store”:{
     “book”:[
      { “category”:“reference”,
         “author”:“Nigel Rees”,
         “title”:“世纪的谚语”,
         “价格”:8.95
      },
      { “类别”:“小说”,
         “作者”:“伊夫林沃”,
         “标题”:“荣誉之剑”,
         “价格”:12.99
      },
      { “类别”:“小说”,
         “作者”:“Herman Melville”,
         “title”:“Moby Dick”,
         “isbn”:“0-553-21311-3”,
         “price”:8.99
      },
      { “类别”:“小说”,
         “作者”:“JRR托尔金”,
         “标题”:“指环王”,
         “isbn”:“0-395-19395-8”,
         “价格”:22.99
      }
    ]
    “自行车”:{
       “颜色”:“红色”,
       “价格”:19.95
    }
  }
}

由于我平时没怎么用到过jsonpath库起初看到代码时还以为是用正则表达式查找路径,闹了个笑话。
xml.png

添加新评论

  Timeline

我们来自五湖四海,转眼就要各奔东西。
--- updated on 2020年12月1日

  关于博主

计科学生一枚,现在变社畜了,依旧热爱分享,有趣想法也会尝试用代码实现;
建这个博客初衷在于记一些自己笔记和想法,方便自己查阅;
本博客内核采用 Typecho开源代码,平时也可能分享一些开源资源,若侵犯您版权,请联系我删除。

  近期评论

  • 暂无评论

无论有多困难,都坚强地抬头挺胸,告诉所有人,你并非他们想象的那样不堪一击。

每个人心里都有一段伤痕,时间才是最好的疗剂。

人总是珍惜未得到的,而遗忘了所拥有的。

退一步,并不象征我认输;放手,并不表示我放弃;微笑,并不意味我快乐!

人海中再回首,朋友真诚依旧,生命里重逢,心境平和温柔,往事如风,岁月如歌,漫漫人生路,苍桑几许,幸福几何!