网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
05月15日
漏签
0
天
自媒体营销吧
关注:
9,517
贴子:
23,016
看贴
图片
吧主推荐
游戏
1
2
下一页
尾页
27
回复贴,共
2
页
,跳到
页
确定
<返回自媒体营销吧
>0< 加载中...
uc头条文章采集
只看楼主
收藏
回复
mememama小童鞋
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
自动化文章采集,如公众号、自媒体平台、微博、媒体报导等可以节省很多时间。本例中数据导出excel后如下图:
文章图片分文件夹自动存放:
送TA礼物
1楼
2018-04-02 07:55
回复
mememama小童鞋
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
文中用到的采集工具只是演示,想要获取的话可以前往官网:
http://dls.bazhuayu.com/ws/730
。
要是习惯使用其他方式替换即可。
步骤1:创建采集任务
1)进入主界面,选择“自定义模式”
2)将要采集的网址URL复制粘贴到网站输入框中,点击“保存网址”
3楼
2018-04-02 07:57
回复
收起回复
2025-05-15 01:29:04
广告
mememama小童鞋
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
3)在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。网页打开后,默认显示“推荐”文章。观察发现,此网页没有翻页按钮,而是通过下拉加载,不断加载出新的内容
因而,我们选中“打开网页”步骤,在高级选项中,勾选“页面加载完成后向下滚动”,滚动次数根据自身需求进行设置,间隔时间根据网页加载情况进行设置,滚动方式为“向下滚动一屏”,然后点击“确定”
(注意: 间隔时间需要针对网站情况进行设置,并不是绝对的。一般情况下,间隔时间>网站加载时间即可。有时候网速较慢,网页加载很慢,还需根据具体情况进行调整。)
4楼
2018-04-02 07:58
回复
收起回复
mememama小童鞋
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
步骤2:创建翻页循环及提取数据
1)移动鼠标,选中页面里第一条文章链接。系统会自动识别相似链接,在操作提示框中,选择“选中全部”
2)选择“循环点击每个链接”
3) 系统会自动进入文章详情页。点击需要采集的字段(这里先点击了文章标题),在操作提示框中,选择“采集该元素的文本”
文章发布时间、文章作者、文章发布时间、文章正文内容采集方法同上。以下采集的是文章正文
5楼
2018-04-02 07:59
回复
收起回复
mememama小童鞋
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
步骤3:提取图片地址
1)接下来开始采集图片地址。先点击文章中第一张图片,再点击页面中第二张图片,在弹出的操作提示框中,选择“采集以下图片地址”
2)修改字段名称,再点击“确定”
3)现在我们已经采集到了图片URL,接下来为批量导出图片做准备。批量导出图片的时候,我们想要同一篇文章中的图片放进同一个文件中,文件夹以文章标题命名。
首先,我们选中标题,在操作提示框中,选择“采集该元素的文本”
选中标题字段,点击如图所示按钮
6楼
2018-04-02 08:03
回复
收起回复
mememama小童鞋
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
选择“格式化数据”
点击添加步骤
选择“添加前缀”
在如图位置,输入前缀:“D:\UC头条图片采集\”,然后点击“确定”
以同样的方式添加后缀“\”,然后点击“确定”
4)修改字段名为“图片存储地址”,最后展示出的“D:\UC头条图片采集\文章标题”即为图片保存文件夹名,其中“D:\UC头条图片采集\”是固定的,文章标题是变化的
7楼
2018-04-02 08:04
回复
收起回复
mememama小童鞋
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
步骤4:修改Xpath
1)选中整个“循环”步骤,打开“高级选项”,可以看到,八爪鱼默认生成的是固定元素列表,定位的是前13篇文章的链接
2)在火狐浏览器中打开要采集的网页并观察源码。我们发现,通过此条Xpath:
//DIV[@class='news-list']/UL[1]/LI/DIV[1]/DIV[1]/A,页面中所需的所有文章均被定位了
3)将修改后的Xpath,复制粘贴到八爪鱼中所示位置,然后点击“确定”
8楼
2018-04-02 08:06
回复
收起回复
mememama小童鞋
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
步骤5:数据采集及导出
1)点击左上角的“保存”,然后点击“开始采集”,选择“启动本地采集”
注:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一
2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出
这样就得到了一个Excel表格。
9楼
2018-04-02 08:07
回复
收起回复
2025-05-15 01:23:04
广告
mememama小童鞋
中级粉丝
2
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
2)打开File菜单,选择从EXCEL导入(目前只支持EXCEL格式文件)
3)进行相关设置,设置完成后,点击OK即可导入文件
选择EXCEL文件:导入你需要下载图片地址的EXCEL文件
EXCEL表名:对应数据表的名称
文件URL列名:表内对应URL的列名称,在这里为“图片URL”
保存文件夹名:EXCEL中需要单独一个列,列出图片想要保存到文件夹的路径,可以设置不同图片存放至不同文件夹,在这里为“图片存储地址”
可以设置不同图片存放至不同文件夹,在这里我们已经于前期准备好了,同一篇文章中的图片会放进同一个文件中,文件夹以文章标题命名
4)点击OK后,界面如图所示,再点击“开始下载”
5)页面下方会显示图片下载状态
6)全部下载完成后,找到自己设定的图片保存文件夹,可以看到,图片URL已经批量转换为图片了,且同一篇文章中的图片会放进同一个文件中,文件夹以文章标题命名
11楼
2018-04-02 08:10
回复
收起回复
么么爱吃椰子
初级粉丝
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
顶一下
12楼
2018-04-07 09:51
回复
收起回复
么么爱吃椰子
初级粉丝
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
顶一下
13楼
2018-04-08 08:30
回复
收起回复
么么爱吃椰子
初级粉丝
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
顶一下
14楼
2018-04-08 09:07
回复
收起回复
么么爱吃椰子
初级粉丝
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
顶一下
15楼
2018-04-08 09:46
回复
收起回复
么么爱吃椰子
初级粉丝
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
顶一下
16楼
2018-04-08 10:26
回复
收起回复
2025-05-15 01:17:04
广告
么么爱吃椰子
初级粉丝
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
顶一下
17楼
2018-04-08 10:46
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
吧友们来预测一下2025年MSI
2723010
2
WBG与JDG上演奥斯卡宫斗之夜
2145362
3
奥特曼成为中国儿童市场之王
1870316
4
印度S400操作士兵在冲突中阵亡
1866159
5
TES绝不加班轻松零封WE
1813162
6
乒协坚决抵制刘国梁相关谣言
1680400
7
分手后前女友反复加我好友
1215312
8
中国对美加征关税今起正式调整
1002800
9
LPL宫斗大换人时代已到来
922042
10
日本人这次真吃不起大米了
811860
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示