张浩宇吧 关注:110贴子:751
  • 7回复贴,共1

每天都是谁在签到呢?

只看楼主收藏回复

我是第三个


来自iPhone客户端1楼2016-03-16 20:33回复
    那我是第四个


    2楼2019-06-18 11:19
    回复
      2025-06-09 00:41:13
      广告
      from selenium import webdriver
      from selenium.webdriver.common.by import By
      browser = webdriver.Edge()
      url = 'https://www.baidu.com'
      browser.get(url)
      input = browser.find_element(By.ID,'kw')
      input.send_keys('周杰伦')
      button = browser.find_element(By.ID,'su')
      button.click()
      import time
      time.sleep(5)
      browser.save_screenshot("baidu.png")


      IP属地:河北5楼2024-12-22 22:23
      收起回复
        import requests
        url='https://www.baidu.com/?tn=15007414_8_dg'
        header={
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0'
        }
        r = requests.get(url,headers=header)
        r.encoding = 'utf-8'
        content=r.text
        from lxml import etree
        tree=etree.HTML(content)
        result=tree.xpath('//div【@class="s-top-left-new s-isindex-wrap"】/a/text()')
        print(result)


        IP属地:河北9楼2024-12-22 23:05
        收起回复
          0.创建一个项目
          1.items 定义数据结构的
          2.使用xpath解析到爬取数据
          3.使用管道
          items.py文件:
          import scrapy
          class MyspiderItem(scrapy.Item):
          # define the fields for your item here like:
          name = scrapy.Field() # 表示讲师姓名
          level = scrapy.Field() # 表示讲师级别
          resume = scrapy.Field() # 表示讲师履历
          pass
          spiders/dsangdang.py文件
          import scrapy
          from mySpider.items import MyspiderItem
          class ItcastSpider(scrapy.Spider):
          name = "itcast"
          allowed_domains = ["http://www.itcast.cn"]
          start_urls = ["https://www.itcast.cn/channel/teacher.shtml"]
          def parse(self, response):
          # with open("teacher_info.txt", "w", encoding="utf-8") as file:
          # file.write(response.text)
          # pass
          items = [] # 存储所有讲师的信息
          for each in response.xpath("//div[@class='li_txt']"):
          item = MyspiderItem( ) # 创建MyspiderItem类的对象
          name = each.xpath("h3/text()").extract_first()
          level = each.xpath("h4/text()").extract()
          resume = each.xpath("p/text()").extract()
          item["name"] = name
          item["level"] = level[0]
          item["resume"] = resume[0]
          yield item
          # items.append(item)
          # return items
          pipeline.py文件
          # 如果想使用管道的话 那么就必须在settings中开启管道
          class ScrapyDangdang095Pipeline:
          # 在爬虫文件开始的之前就执行的一个方法
          def open_spider(self,spider):
          self.fp = open('book.json','w',encoding='utf-8')
          # item就是yield后面的book对象
          def process_item(self, item, spider):
          # 以下这种模式不推荐 因为每传递过来一个对象 那么就打开一次文件 对文件的操作过于频繁
          # # (1) write方法必须要写一个字符串 而不能是其他的对象
          # # (2) w模式 会每一个对象都打开一次文件 覆盖之前的内容
          # with open('book.json','a',encoding='utf-8')as fp:
          # fp.write(str(item))
          self.fp.write(str(item))
          return item
          # 在爬虫文件执行完之后 执行的方法
          def close_spider(self,spider):
          self.fp.close()


          IP属地:河北10楼2024-12-22 23:37
          收起回复