python抓取多种类型的页面方法实例
与抓取预定义好的页面集合不同,抓取一个网站的所有内链会带来一个挑战,即你不知道会获得什么。好在有几种基本的方法可以识别页面类型。
通过URL
一个网站中所有的博客文章可能都会包含一个URL(例如http://example.com/blog/title-of-post)。
通过网站中存在或者缺失的特定字段
如果一个页面包含日期,但是不包含作者名字,那你可以将其归类为新闻稿。如果它有标题、主图片、价格,但是没有主要内容,那么它可能是一个产品页面。
通过页面中出现的特定标签识别页面
即使不抓取某个标签内的数据,你仍然可以利用这个标签。你的爬虫可以寻找类似于
为了跟踪多个页面类型,你需要在Python中有多个类型的页面对象。这通过两种方式来实现。
如果页面都是相似的(它们基本上都是相同类型的内容),你可能需要在现有的网页对象中加入一个pageType属性:
classWebsite: """所有文章/网页的共同基类""" def__init__(self,type,name,url,searchUrl,resultListing, resultUrl,absoluteUrl,titleTag,bodyTag): self.name=name self.url=url self.titleTag=titleTag self.bodyTag=bodyTag self.pageType=pageType
如果你在一个类SQL的数据库中对这些页面进行排序,这种模式类型意味着这些页面应该被存放在同一张表中,并且加入一个额外的pageType列。
如果你抓取的页面或内容各不相同(它们包含不同类型的字段),就需要为每个页面类型创建一个新的对象。当然,有些东西是所有网页共有的——它们都有一个URL,也可能都有一个名称或者页面标题。这种情况非常适合用子类:
classWebsite: """所有文章/网页的共同基类""" def__init__(self,name,url,titleTag): self.name=name self.url=url self.titleTag=titleTag
这不是一个由你的爬虫直接使用的对象,而是将被你的页面类型引用的对象:
classProduct(Website): """产品页面要抓取的信息""" def__init__(self,name,url,titleTag,productNumber,price): Website.__init__(self,name,url,TitleTag) self.productNumberTag=productNumberTag self.priceTag=priceTag classArticle(Website): """文章页面要抓取的信息""" def__init__(self,name,url,titleTag,bodyTag,dateTag): Website.__init__(self,name,url,titleTag) self.bodyTag=bodyTag self.dateTag=dateTag
这个产品页面扩展了Website基类,并且加入了仅适用于产品的productNumber和price属性,而Article类加入了body和date属性,这两个属性是不适用于产品的。
你可以用这两个类去抓取一个商店网站,该网站除了产品,可能还包含博客文章或新闻稿。
希望以上知识点能够帮助到大家,感谢大家对毛票票的支持。