网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
07月23日漏签0天
python吧 关注:475,691贴子:1,971,212
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 2回复贴,共1页
<<返回python吧
>0< 加载中...

求救 bs4爬图书全部章节 定位问题 附详细代码和网页原码

  • 只看楼主
  • 收藏

  • 回复
  • 她in他城
  • 贡士
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
import requests
from bs4 import BeautifulSoup
if __name__ =='__main__':
headers = {
'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Mobile Safari/537.36 Edg/90.0.818.62'
}
url = 'https://m.ranwen.la/files/article/104/104485/list.html'
page_text = requests.get(url = url,headers = headers).text
#在首页中解析出章节的标题和详情页的url
#1.实例化BeautifulSoup对象,需要将页面源码数据加载到该对象中
soup = BeautifulSoup(page_text,'xml')
#解析章节标题和
li_list = soup.select('.read > ul > li')
fp = open('./mingchaonaxieshier.txt','w',encoding='utf-8')
for li in li_list:
titile = li.a.string
data_url = 'https://m.ranwen.la'+li.a['href']
# 解析出详情页内相关的章节内容
datial_page_text = requests.get(url = data_url,headers=headers).text
datial_soup = BeautifulSoup(datial_page_text,'xml')
div_tag = datial_soup.find('div',id="nr")
#解析到了章节的内容
content = div_tag.text
fp.write(titile+':'+content+'\n')
print(data_url)
print(titile,'攫取文章中')


以上代码是在BILI上看教学视频上的,换到这个网页上自己不会定位了,有没有佬帮写下并介绍下函数 方法.fing 这段标签层级怎么定位的。有劳大佬运行下。 只要用bs4的这个就行,跪谢。


  • 她in他城
  • 贡士
    7
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
这个个是缩进正常的。运行了没反应,帮我看看 怎么定位 到文章内容 。没报错肯定 是写错了


2025-07-23 08:58:35
广告
不感兴趣
开通SVIP免广告
  • 就回来林俊杰她
  • 贡士
    6
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
981048327


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 2回复贴,共1页
<<返回python吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示