每天都是谁在签到呢？【张浩宇吧】

06月09日漏签0天

张浩宇吧关注：110贴子：751

7回复贴，共1页

<返回张浩宇吧

每天都是谁在签到呢？

只看楼主收藏回复

我是第三个

送TA礼物

来自iPhone客户端1楼2016-03-16 20:33回复

那我是第四个

2楼2019-06-18 11:19

from selenium import webdriver
from selenium.webdriver.common.by import By
browser = webdriver.Edge()
url = 'https://www.baidu.com'
browser.get(url)
input = browser.find_element(By.ID,'kw')
input.send_keys('周杰伦')
button = browser.find_element(By.ID,'su')
button.click()
import time
time.sleep(5)
browser.save_screenshot("baidu.png")

IP属地:河北

5楼2024-12-22 22:23

收起回复

import requests
url='https://www.baidu.com/?tn=15007414_8_dg'
header={
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0'
}
r = requests.get(url,headers=header)
r.encoding = 'utf-8'
content=r.text
from lxml import etree
tree=etree.HTML(content)
result=tree.xpath('//div【@class="s-top-left-new s-isindex-wrap"】/a/text()')
print(result)

IP属地:河北

9楼2024-12-22 23:05

收起回复

0.创建一个项目
1.items 定义数据结构的
2.使用xpath解析到爬取数据
3.使用管道
items.py文件：
import scrapy
class MyspiderItem(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field() # 表示讲师姓名
level = scrapy.Field() # 表示讲师级别
resume = scrapy.Field() # 表示讲师履历
pass
spiders/dsangdang.py文件
import scrapy
from mySpider.items import MyspiderItem
class ItcastSpider(scrapy.Spider):
name = "itcast"
allowed_domains = ["http://www.itcast.cn"]
start_urls = ["https://www.itcast.cn/channel/teacher.shtml"]
def parse(self, response):
# with open("teacher_info.txt", "w", encoding="utf-8") as file:
# file.write(response.text)
# pass
items = [] # 存储所有讲师的信息
for each in response.xpath("//div[@class='li_txt']"):
item = MyspiderItem( ) # 创建MyspiderItem类的对象
name = each.xpath("h3/text()").extract_first()
level = each.xpath("h4/text()").extract()
resume = each.xpath("p/text()").extract()
item["name"] = name
item["level"] = level[0]
item["resume"] = resume[0]
yield item
# items.append(item)
# return items
pipeline.py文件
# 如果想使用管道的话那么就必须在settings中开启管道
class ScrapyDangdang095Pipeline:
# 在爬虫文件开始的之前就执行的一个方法
def open_spider(self,spider):
self.fp = open('book.json','w',encoding='utf-8')
# item就是yield后面的book对象
def process_item(self, item, spider):
# 以下这种模式不推荐因为每传递过来一个对象那么就打开一次文件对文件的操作过于频繁
# # (1) write方法必须要写一个字符串而不能是其他的对象
# # (2) w模式会每一个对象都打开一次文件覆盖之前的内容
# with open('book.json','a',encoding='utf-8')as fp:
# fp.write(str(item))
self.fp.write(str(item))
return item
# 在爬虫文件执行完之后执行的方法
def close_spider(self,spider):
self.fp.close()

IP属地:河北

10楼2024-12-22 23:37

收起回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

7回复贴，共1页

<返回张浩宇吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

每天都是谁在签到呢？

登录百度账号

扫二维码下载贴吧客户端