Python爬虫beautifulsoup4常用的解析方法总结

2023-08-28 14:39:09 79

摘要

如何用beautifulsoup4解析各种情况的网页

beautifulsoup4的使用

关于beautifulsoup4，官网已经讲的很详细了，我这里就把一些常用的解析方法做个总结，方便查阅。

装载html文档

使用beautifulsoup的第一步是把html文档装载到beautifulsoup中，使其形成一个beautifulsoup对象。

importrequests
frombs4importBeautifulSoup
url="http://new.qq.com/omn/20180705/20180705A0920X.html"
r=requests.get(url)
htmls=r.text
#print(htmls)
soup=BeautifulSoup(htmls,'html.parser')

初始化BeautifulSoup类时，需要加入两个参数，第一个参数即是我们爬到html源码，第二个参数是html解析器，常用的有三个解析器，分别是”html.parser”,”lxml”,”html5lib”，官网推荐用lxml，因为效率高，当然需要pipinstalllxml一下。

当然这三种解析方式在某些情况解析得到的对象内容是不同的，比如对于标签不完整这一情况（p标签只有一半）：

soup=BeautifulSoup("","html.parser")
#只有起始标签的会自动补全，只有结束标签的灰自动忽略
#结果为：
soup=BeautifulSoup("","lxml")
#结果为：
soup=BeautifulSoup("","html5lib")
#html5lib则出现一般的标签都会自动补全
#结果为：

使用

在使用中，我尽量按照我使用的频率介绍，毕竟为了查阅~

按照标签名称、id、class等信息获取某个标签

html='TheDormousesstory'
soup=BeautifulSoup(html,'lxml')
#根据class的名称获取p标签内的所有内容
soup.find(class_="title")
#或者
soup.find("p",class_="title"id="p1")
#获取class为title的p标签的文本内容"TheDormouse'sstory"
soup.find(class_="title").get_text()
#获取文本内容时可以指定不同标签之间的分隔符，也可以选择是否去掉前后的空白。
soup=BeautifulSoup('TheDormousesstory
TheDormousesstory',"html5lib")
soup.find(class_="title").get_text("|",strip=True)
#结果为：TheDormousesstory|TheDormousesstory
#获取class为title的p标签的id
soup.find(class_="title").get("id")
#对class名称正则：
soup.find_all(class_=re.compile("tit"))
#recursive参数，recursive=False时，只find当前标签的第一级子标签的数据
soup=BeautifulSoup('abc','lxml')
soup.html.find_all("title",recursive=False)</pre>
<ul>
<li>按照标签名称、id、class等信息获取多个标签</li>
</ul>
<pre>
soup=BeautifulSoup('<pclass="title"id="p1"><b>Thelikestory</b></p><pclass="title"id="p1"><b>TheDormousesstory</b></p>',"html5lib")
#获取所有class为title的标签
foriinsoup.find_all(class_="title"):
print(i.get_text())
#获取特定数量的class为title的标签
foriinsoup.find_all(class_="title",limit=2):
print(i.get_text())</pre>
<ul>
<li>按照标签的其他属性获取某个标签</li>
</ul>
<pre>
html='<aalog-action="qb-ask-uname"href="/usercent"rel="externalnofollow"target="_blank">蜗牛宋</a>'
soup=BeautifulSoup(html,'lxml')
#获取"蜗牛宋",此时，该标签里既没有class也没有id，需要根据其属性来定义获取规则
author=soup.find('a',{"alog-action":"qb-ask-uname"}).get_text()
#或
author=soup.find(attrs={"alog-action":"qb-ask-uname"})</pre>
<ul>
<li>找前头和后头的标签</li>
</ul>
<pre>
soup.find_all_previous("p")
soup.find_previous("p")
soup.find_all_next("p")
soup.find_next("p")</pre>
<ul>
<li>找父标签</li>
</ul>
<pre>
soup.find_parents("div")
soup.find_parent("div")</pre>
<ul>
<li>css选择器</li>
</ul>
<pre>
soup.select("title")#标签名
soup.select("htmlheadtitle")#多级标签名
soup.select("p>a")#p内的所有a标签
soup.select("p>#link1")#P标签内，按id查标签
soup.select("#link1~.sister")#查找相同class的兄弟节点
soup.select("#link1+.sister")
soup.select(".sister")#按class名称查
soup.select("#sister")#按id名称查
soup.select('a[href="http://example.com/elsie"rel="externalnofollow"]')#按标签的属性查
soup.select('a[href$="tillie"]')
soup.select_one(".sister")</pre>
<p>注意几个可能出现的错误，可以用try捕获来防止爬虫进程</p>
<ul>
<li>UnicodeEncodeError:‘charmap'codeccan'tencodecharacteru'\xfoo'inpositionbar(或其它类型的UnicodeEncodeError</li>
</ul>
<p>需要转码</p>
<ul>
<li>AttributeError:‘NoneType'objecthasnoattribute‘foo'</li>
</ul>
<p>没这个属性</p>
<p>就介绍这么多，应该可以覆盖大部分网页结构了吧~！</p>
<p><strong>总结</strong></p>
<p>以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对毛票票的支持。如果你想了解更多相关内容请查看下面相关链接</p></section>
                </div>
            </div>
            <!--文章阅读上下按钮-->  
            <nav>
                                    <span class="meta-nav"><a href="/article/194940.html" title="JS module的导出和导入的实现代码" se_prerender_url="complete">上一篇<br>JS module的导出和导入的实现代码</a></span>
                
                                    <span class="meta-nav"><a href="/article/194938.html" title="js实现网页同时进行多个倒计时功能" se_prerender_url="complete">下一篇<br>js实现网页同时进行多个倒计时功能</a></span>
                            <div class="clear"></div>
            </nav>
            <!-- 文章推荐 -->
            <div class="article-recommend">         
                <h3>热门推荐</h3> 
                                        <div class="title"><span class="s-1">1</span> <a href="/article/10835.html" title="毛坯房验收经验和常识 看了之后再验房心里有底">毛坯房验收经验和常识 看了之后再验房心里有底</a></div>  
                                        <div class="title"><span class="s-2">2</span> <a href="/article/10697.html" title="二手房收房如何交接 二手房收房注意问题">二手房收房如何交接 二手房收房注意问题</a></div>  
                                        <div class="title"><span class="s-3">3</span> <a href="/article/10605.html" title="专业验收毛坯房的价格 商品房验收合格的标准">专业验收毛坯房的价格 商品房验收合格的标准</a></div>  
                                        <div class="title"><span class="s-4">4</span> <a href="/article/10568.html" title="精装房怎么验收 精装房请验房师有用吗">精装房怎么验收 精装房请验房师有用吗</a></div>  
                                        <div class="title"><span class="s-5">5</span> <a href="/article/10567.html" title="一般要到哪里找验房师 验房师有哪些作用呢">一般要到哪里找验房师 验房师有哪些作用呢</a></div>  
                                        <div class="title"><span class="s-6">6</span> <a href="/article/10566.html" title="请人验房一般是多少钱 验房师费用是多少">请人验房一般是多少钱 验房师费用是多少</a></div>  
                                        <div class="title"><span class="s-7">7</span> <a href="/article/10553.html" title="怎样测量房子面积 建筑面积和使用面积怎么算">怎样测量房子面积 建筑面积和使用面积怎么算</a></div>  
                                        <div class="title"><span class="s-8">8</span> <a href="/article/10550.html" title="收房需要注意什么 仔细检查不松懈">收房需要注意什么 仔细检查不松懈</a></div>  
                                        <div class="title"><span class="s-9">9</span> <a href="/article/10548.html" title="收房时三书一证一表是什么 主要作用介绍">收房时三书一证一表是什么 主要作用介绍</a></div>  
                                        <div class="title"><span class="s-10">10</span> <a href="/article/10547.html" title="交房时交房税费有哪些 本文为你一一讲解">交房时交房税费有哪些 本文为你一一讲解</a></div>  
                                        <div class="title"><span class="s-11">11</span> <a href="/article/10526.html" title="验房都需要验什么 要做哪些准备呢">验房都需要验什么 要做哪些准备呢</a></div>  
                                        <div class="title"><span class="s-12">12</span> <a href="/article/10525.html" title="毛坯房验房师有必要请吗 毛坯房装修完如何验收">毛坯房验房师有必要请吗 毛坯房装修完如何验收</a></div>  
                                        <div class="title"><span class="s-13">13</span> <a href="/article/7820.html" title="地下室防水工程质量验收规范详解">地下室防水工程质量验收规范详解</a></div>  
                                        <div class="title"><span class="s-14">14</span> <a href="/article/4947.html" title="水性涂料、油性涂料区别介绍">水性涂料、油性涂料区别介绍</a></div>  
                                        <div class="title"><span class="s-15">15</span> <a href="/article/4517.html" title="零基础布艺DIY工坊 教你做超萌猫头鹰钥匙包">零基础布艺DIY工坊 教你做超萌猫头鹰钥匙包</a></div>  
                                        <div class="title"><span class="s-16">16</span> <a href="/article/4438.html" title="三棵树漆怎么样？三棵树漆官方网站">三棵树漆怎么样？三棵树漆官方网站</a></div>  
                                        <div class="title"><span class="s-17">17</span> <a href="/article/4258.html" title="家庭“装修套餐”中猫腻你知道吗？">家庭“装修套餐”中猫腻你知道吗？</a></div>  
                                        <div class="title"><span class="s-18">18</span> <a href="/article/4051.html" title="小空间大浴望 卫浴间装修巧支招">小空间大浴望 卫浴间装修巧支招</a></div>  
                     
            </div>
            <div class="add-gg">
                <!-- 文章内页广告 -->
                <ins class="adsbygoogle"
                     style="display:block"
                     data-ad-client="ca-pub-4387516810452807"
                     data-ad-slot="9131157744"
                     data-ad-format="auto"
                     data-full-width-responsive="true"></ins>
                <script>
                     (adsbygoogle = window.adsbygoogle || []).push({});
                </script>
            </div>
        </div>
        <!--侧边栏-->
        <div id="sidebar">
            <li class="sidebar-box">
                <h3 class="widget-title">随机推荐</h3>
                <ul>
                                            <li>
                            <a href="/article/251498.html" title="php页面跳转session cookie丢失导致不能登录等问题的解决方法">php页面跳转session cookie丢失导致不能登录等问题的解决方法</a>
                        </li>
                                            <li>
                            <a href="/article/251499.html" title="ios的手势操作之UIGestureRecognizer浅析（推荐）">ios的手势操作之UIGestureRecognizer浅析（推荐）</a>
                        </li>
                                            <li>
                            <a href="/article/251505.html" title="实例分析浏览器中“JavaScript解析器”的工作原理">实例分析浏览器中“JavaScript解析器”的工作原理</a>
                        </li>
                                            <li>
                            <a href="/article/251506.html" title="UIImage加载图片Images.xcassets加载方法的影响">UIImage加载图片Images.xcassets加载方法的影响</a>
                        </li>
                                            <li>
                            <a href="/article/251507.html" title="ASP.NET文本框密码赋默认值的方法">ASP.NET文本框密码赋默认值的方法</a>
                        </li>
                                            <li>
                            <a href="/article/251508.html" title="JS双击变input框批量修改内容">JS双击变input框批量修改内容</a>
                        </li>
                                            <li>
                            <a href="/article/251511.html" title="iOS10 ATS 配置详细介绍">iOS10 ATS 配置详细介绍</a>
                        </li>
                                            <li>
                            <a href="/article/251512.html" title="[Spring MVC]-详解SpringMVC的各种参数绑定方式">[Spring MVC]-详解SpringMVC的各种参数绑定方式</a>
                        </li>
                                            <li>
                            <a href="/article/251514.html" title="php一个文件搞定微信jssdk配置">php一个文件搞定微信jssdk配置</a>
                        </li>
                                            <li>
                            <a href="/article/251516.html" title="CAMediaTiming （ 时间协议）详解及实例代码">CAMediaTiming （ 时间协议）详解及实例代码</a>
                        </li>
                                            <li>
                            <a href="/article/251519.html" title="Swift Self详解及简单实例代码">Swift Self详解及简单实例代码</a>
                        </li>
                                            <li>
                            <a href="/article/251522.html" title="在运行时初始化的二维数组上的C程序">在运行时初始化的二维数组上的C程序</a>
                        </li>
                                            <li>
                            <a href="/article/251523.html" title="计算C中二维数组中所有元素的总和">计算C中二维数组中所有元素的总和</a>
                        </li>
                                            <li>
                            <a href="/article/251524.html" title="php自定义扩展名获取函数示例">php自定义扩展名获取函数示例</a>
                        </li>
                                            <li>
                            <a href="/article/251526.html" title="Struts2 $,#,%详解及实例代码">Struts2 $,#,%详解及实例代码</a>
                        </li>
                                            <li>
                            <a href="/article/251527.html" title="使用Shell 脚本实现每隔100行插入一条记录且记录第一列包含行号其他列不变">使用Shell 脚本实现每隔100行插入一条记录且记录第一列包含行号其他列不变</a>
                        </li>
                                    </ul>
            </li>
            <li class="sidebar-box">

                 <!-- google文章侧边 -->
                <ins class="adsbygoogle"
                     style="display:block"
                     data-ad-client="ca-pub-4387516810452807"
                     data-ad-slot="8604338277"
                     data-ad-format="auto"
                     data-full-width-responsive="true"></ins>
                <script>
                     (adsbygoogle = window.adsbygoogle || []).push({});
                </script>
            </li>
        </div>
    </div>
</div>

<ul class="suspend">
    <li class="back-top" onclick="backTop()">
        <i class="fa fa-chevron-up"></i>
        <span class="more">返回顶部</span>
    </li>
    <li>
        <a href="http://wpa.qq.com/msgrd?v=3&uin=514930285&site=qq&menu=yes">
            <i class="fa fa-qq"></i>
            <span class="more">514930285</span>
        </a>
    </li>
    <li>
        <a href="mailto:czq8825@qq.com">
            <i class="fa fa-envelope"></i>
            <span class="more">czq8825@qq.com</span>
        </a>
    </li>
<!--     <li>
        <i class="fa fa-weixin"></i>
        <span class="more weixin"><img src="http://www.haoziyuan.cc/Uploads/20210427/6087c019e1f1f.jpg" alt="微信二维码"></span>
    </li> -->
</ul>

<footer class="footer clearfix">
    <p>免责声明：网站资源来源于网络，如有侵权，请及时联系删除。</p>
    <p>Copyright © 2024 <a href="/">好资源导航网</a>. All Rights Reserved.</p>
    <p>
        <a href="https://beian.miit.gov.cn">蜀ICP备2021004611号-4</a>
        <a href="/sitemap.html">网站地图</a>
        <script charset="UTF-8" id="LA_COLLECT" src="//sdk.51.la/js-sdk-pro.min.js"></script>
<script>LA.init({id:"KRBIHUupjRSBtYXu",ck:"KRBIHUupjRSBtYXu"})</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?78e2f1027b3a17750580941ea594d61e";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>    </p>
</footer>
<script src="/Public/Home/js/main.js"></script>
<script type="text/javascript" src="/Public/Home/js/z_stat.js"></script>
</body>
</html>