【图片】来个python的简单爬虫和数据清洗【大数据吧】

10月29日漏签0天

大数据吧关注：165,725贴子：204,460

10回复贴，共1页

<返回大数据吧

来个python的简单爬虫和数据清洗

只看楼主收藏回复

爬取的网站是这个，该网站没有任何反爬措施。

送TA礼物

IP属地:广西

1楼2024-09-22 19:28回复

在开发者工具可以得到url,爬取方法为post,User-Agent和payload参数。

IP属地:广西

2楼2024-09-22 19:32

区块城市（广州）科技发展

BlockCity将元宇宙与Web3、DAO融为一体，数字大数据，远不只是元宇宙地产和投资数字大数据成为永久居民，开启你的元宇宙生涯!

2024-10-29 04:34广告

立即查看

得到参数后，用requests.post方法爬取。（current表示数据页数，size表示每页20行数据）获得json文件后插入列表里。

IP属地:广西

3楼2024-09-22 19:35

前面的代码只爬取了第一页，接下来把每页都爬了。

IP属地:广西

4楼2024-09-22 19:37

数据有一千多页，要爬蛮久的，先等等。

IP属地:广西

5楼2024-09-22 19:40

额......爬取有点问题，一共就1649页，它竟然显示爬到1700页还没结束，不过既然都知道有1649页了，就这样改吧。

IP属地:广西

6楼2024-09-22 19:54

又要重新等一次。

IP属地:广西

7楼2024-09-22 19:56

爬取完成后，该清洗一下爬取的数据了，提取GetData每个字典中的data的records，因为数据就在那里面。

IP属地:广西

8楼2024-09-22 20:10

区块城市（广州）科技发展

虚拟与现实的结合，数字大数据，一个去中心化的平行世界，立即拥有你的数字分身不只是数字藏品、数字大数据，快速开启元宇宙生涯

2024-10-29 04:34广告

立即查看

然后用pandas处理一下，转换为dataframe框架，只显示网站显示的列，删去其它列，再把要显示的列的列名翻译一下。
删除多余列：

翻译列名：

IP属地:广西

9楼2024-09-22 20:14

存入csv中，查看一下结果吧。

感觉还行。

IP属地:广西

10楼2024-09-22 20:17

代码都不到100行，还是挺容易的，都不需要什么算法，都是基本逻辑。

IP属地:广西

来自Android客户端11楼2024-09-22 20:25

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

10回复贴，共1页

<返回大数据吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

来个python的简单爬虫和数据清洗

登录百度账号

扫二维码下载贴吧客户端