网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
04月19日
漏签
0
天
http吧
关注:
61,552
贴子:
113,113
看贴
图片
吧主推荐
视频
游戏
3
回复贴,共
1
页
<<返回http吧
>0< 加载中...
全网小说免费读!!0基础学Python爬虫
取消只看楼主
收藏
回复
北海追梦15
人中龙凤
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
前言
本文案例适合爬虫入门学习,有些地方描述不清晰,如有疑问欢迎在下方留言。完整代码@ 私聊楼主领取。
环境:Python3.6+Windows
大概思路:
获取小说主页源代码
在主页源代码中找到每个章节的超链接
获取每个章节超链接的源代码
获取章节的内容
保存内容到本地
北海追梦15
人中龙凤
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
导入一些基本的模块:
import requests
from bs4 import BeautifulSoup
import random
以上代码获取网页全部源代码,然后,使用正则表达式获取文章全部章节的URL。
构建函数,避免重复代码
北海追梦15
人中龙凤
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
接下来,用with open方法写入txt文件中。
使用find_all 函数获取内容,并提取第0个 [0] 中的 文本 text。
这样提取出来之后用 join 函数和 split 函数把内容格式化成为一个长的字符串。
最后,出来的效果如下:
北海追梦15
人中龙凤
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示