Python下的爬虫库,一般分为3类python 爬虫。
抓取类
urllib(Python3),这是Python自带的库,可以模拟浏览器的请求,获得Response用来解析,其中提供了丰富的请求手段,支持Cookiespython 爬虫、Headers等各类参数,众多爬虫库基本上都是基于它构建的。建议学习了解一下,因为有些罕见的问题需要通过底层的方式解决。
requests,基于urllib,但是更方便易用python 爬虫。强烈推荐掌握。
解析类
repython 爬虫:正则表达式官方库,不仅仅是学习爬虫要使用,在其他字符串处理或者自然语言处理的过程中,这是绕不过去的一个库,强烈推荐掌握。
BeautifulSouppython 爬虫:方便易用,好上手,推荐掌握。通过选择器的方式选取页面元素,并获取对应的内容。
lxml:使用
lxml.etree
将字符串转换之后,我们可以使用XPath表达式来解析网页,终极推荐。XPath对于网页解析的支持非常强大,而且很容易上手。它本来是设计出来进行XML元素选择的,但是它同样支持HTML。
pyquery:另一个强大的解析库,感兴趣的可以学习下。
综合类
selenium:所见即所得式爬虫,综合了抓取和解析两种功能,一站式解决。很多动态网页不太容易通过requests、scrapy直接抓取,比如有些url后边带了加密的随机数,这些算法不太好破解,这种情况下,只能通过直接访问网址、模拟登陆等方式请求到页面源码,直接从网页元素中解析内容,这种情况下,Selenium就是最好的选择。不过Selenium最初设计出来,是用于测试的。强烈推荐。
scrapy:另一个爬虫神器,适合爬取大量页面,甚至对分布式爬虫提供了良好的支持。强烈推荐。
以上这些是我个人经常使用的库,但是还有很多其他的工具值得学习。比如Splash也支持动态网页的抓取;Appium可以帮助我们抓取App的内容;Charles可以帮助我们抓包,不管是移动端还是PC网页端,都有良好的支持;pyspider也是一个综合性的框架;MySQL(pymysql)、MongoDB(pymongo),抓到了数据就要存储,数据库也是绕不过去的。
掌握了以上这些,基本上大部分的爬虫任务都难不倒你啦!
你也可以关注我的头条号,或者我的个人博客,里边会有一些爬虫类的分享。数洞: /
要学会使用Python爬取网页信息无外乎以下几点内容:
要会Python
知道网页信息如何呈现
了解网页信息如何产生
学会如何提取网页信息
第一步Python是工具,所以你必须熟练掌握它,要掌握到什么程度呢?如果你只想写一写简单的爬虫,不要炫技不考虑爬虫效率,你只需要掌握:数据类型和变量
字符串和编码
使用list和tuple
条件判断、循环
使用dict和set
你甚至不需要掌握函数、异步、多线程、多进程,当然如果想要提高自己小爬虫的爬虫效率,提高数据的精确性,那么记住最好的方式是去系统的学习一遍Python。
那么进入第二步:知道网页信息如何呈现?你首先要知道所需要抓取的数据是怎样的呈现的,就像是你想要学做一幅画,在开始之前你要知道这幅画是用什么画出来的,铅笔还是水彩笔等等
但是放到网页信息来说这儿只有两种呈现方式:
HTML(HTML是用来描述网页的一种语言)
JSON (JSON是一种轻量级的数据交换格式)
那么我们紧接着第三步:数据怎么来?数据当然是从服务器反馈给你的,为什么要反馈给你?因为你发出了请求。
“Hi~ ,服务器我要这个资源”
“正在传输中...”
“已经收到HTML或者JSON格式的数据”
这是什么请求?
这里你需要了解一下}
更加精确来说你需要去了解GET和POST是什么,区别是什么。下面就是好好享受了。现在我们已经拿到了数据,我们需要在这些错乱的数据中提取我们需要的数据,这时候我们有两个选择。
第一:Python正则表达式 ,再大再乱的内容,哪怕是大海捞针,只要告诉我这个针的样子我都能从茫茫大海中捞出来,强大的正则表达式是你提取数据的不二之选。
第二:Beautiful Soup 4.2.0 文档,或许我们有更好的选择,我们把原始数据和我们想要的数据的样子扔个这个Beautifulsoup,然后让它帮我们去寻找,这也是一个不错的方案,但是论灵活性,还是正则表达式更好用。
这里就是所有爬取网页所需要掌握的知识,当你学习完这些内容,接下来你要做的事就是实战了,并且只有在实战中才能真正的提升自己的编程能力,学习更多爬虫以及反爬虫的技巧。
阅读:
哈士奇纯种的有什么特征
肩高:公犬53~60公分,母犬51~56公分;体重:公犬20~27公斤,母犬16~23公斤;颈部:中长,站立时直立并抬头挺胸,由肩部强而有力的耸立且有适度的颈拱。
狗的习性是什么
狗是食肉动物,容易和适宜消化肉食食品,进食时不大咀嚼。狗不能在行进中排便,喜啃咬,有自我防御能力能把毒食物吐出来。狗用唾液中水分蒸发来散热,狗在群居时有“等级制度”和主从关系,狗屁股和尾巴摸不得。
可蒙犬和波利犬的区别是什么
可蒙毛色以白色为主、奶白色,波利毛色以黑色为主、棕褐色。波利的体型比可蒙犬小,波利绳毛粗,下有细小的被毛,可蒙绳毛细,毛质硬。可蒙性格相对憨厚、沉稳,波利则活泼好动。
猎狐梗和雪纳瑞的区别是什么
猎狐梗性格机警刚烈,雪纳瑞友善活泼。猎狐梗比雪纳瑞脸更长,雪纳瑞毛比猎狐梗长很多。猎狐梗源于英国,雪纳瑞源于德国,不含英国血统。
狂犬病疫苗价格:狂犬病疫苗价格 打狂犬疫苗,要花多少钱?需要注意哪些问题?
谢谢邀请狂犬病疫苗价格!被猫狗等啮齿类动物咬伤后狂犬病疫苗价格,要尽早接种狂犬疫苗,一般在被咬伤后24小时内接种效果更好。不同品牌的狂犬疫苗价格不同狂犬病疫苗价格,以我中心的狂犬疫苗为例狂犬病疫苗价格,如果是二级暴露的话,只要单纯打狂犬疫苗,钱就会少点,一种是360元狂犬病疫苗价格,一种是420元,两种都是打五针,即被咬伤后的第0,3,7,14,28天各接种一针。如果是三级暴露,即伤口有流血,打完狂苗还要加打狂免,那样钱就多了,那就要看
淡水观赏龟的种类:最佳观赏淡水猪鼻龟如何饲养?
猪鼻子龟淡水观赏龟的种类,日常生活中需要注意什么呢? 猪鼻龟,特别是他的鼻子和猪鼻子一模一样,所以我们都叫它猪鼻子龟,猪鼻子龟外形可爱,游姿漂亮,是淡水乌龟中的最佳观赏类的乌龟 1 温度淡水观赏龟的种类,猪鼻子乌龟在适应温度应该保持28°左右合适,猪鼻子乌龟属于深水河龟,不需要晒台。 2环境,水质一定要保持清洁干净,水质不干净的话就会得水霉,龟皮掉落?开缸前必须注意用高锰酸钾或者是二氧化绿把鱼缸彻底的洗一遍淡水观赏龟的种类。超高透明
宠物火化归哪个部门管:火化场归哪个部门管 如果你养的宠物死了,你会给它火化吗?
我把我的小狗火化了,而且还装在骨灰坛里宠物火化归哪个部门管。过来北漂的时候,我还把骨灰坛一起带过来了。我打算死的时候找一个好地方,把自己放在那,然后再把小狗给我放在一起,我搬到哪,小狗都会跟我在一起,我们永远在一起,你们想看小狗骨灰坛吗?最后的那一张照片照片上的两个罐子就是了。我来北漂一共带了七只狗。五只是活的,两只是死的。我不知道我以后会嫁到哪里,可能嫁到哪里就跟老公放哪里。但是前提都是小狗也会跟我在一起。这七只狗以后可能就是七个小罐