城市gdp吧 关注:175,603贴子:13,337,853
  • 5回复贴,共1

#城市GDP#华为搜索引擎一直在争分夺秒中,台媒digitimes报道

只看楼主收藏回复



IP属地:湖南1楼2020-05-19 22:16回复
    上面某外国个人站长在脸谱华为gms官方账号上抱怨被爬虫程序攻击


    IP属地:湖南2楼2020-05-19 22:17
    回复
      2025-06-23 17:42:47
      广告
      近來,一系列來自華為海外子公司的爬蟲程式令外國各個主機的管理者頭痛不已,因為其爬蟲程式常傳出主機正常運作受到影響,這可能與華為正在開發中的華為搜尋有關,而且似乎可以從中感受到華為的時間壓力。
      爬蟲是一種網路行為,其歷史幾乎與網際網路一樣悠久,創立20多年的Google卓越的搜尋服務除了來自於演算法之外,爬蟲也是功不可沒,而各個網站與使用爬蟲的搜尋引擎之間也存在互利共生的關係。
      然而近期一支名為AspiegelBot的爬蟲程式卻令外國許多網站管理者感到為難。近幾個月來,網路上傳出華為爬蟲程式因為高頻截取網站資料而影響網站運作,網路社群也開始分享因應之道,3月時Jason Dotnet分析爬取其伺服器內容的來源排名,第1名是近年來高度活躍的Ahrefs,第2名就是來自華為的Aspiegel,而開發者平台Hypernode更統計,屬於華為在愛爾蘭分公司Aspiegel的1支爬蟲程式,自3月以來爬取頻率更是扶搖直上。


      IP属地:湖南3楼2020-05-19 22:19
      回复
        華為是在2018年將HMS下的用戶資訊包括帳號、雲端服務、遊戲中心及主題轉移至愛爾蘭的Aspiegel,此舉在當時被視為是在海外用戶對華為存疑的情況下、華為爭取用戶信任的策略。目前Aspiegel負責營運HMS的國際版,主要服務華為中國大陸以外的客戶,如今卻傳出來自Aspiegel的爬蟲程式引發許多網站的不滿。
        近年來,由於中美貿易戰影響,華為的產品已許久無法搭載GMS服務,雖然華為與Google雙方都沒有放棄與對方合作的意願,但華為積極發展自有HMS作為因應之道,值得注意的是,外媒於3月也傳出,華為正在開發自有搜尋引擎「華為搜索」,而3月正是華為對外擷取網站頻度開始大幅上升的時期。
        不僅如此,這支SpiegelBot截取網站之積極,若干情況下甚至無視被視為君子協議的Robots協議中所約束的內容,Robots通常以txt形式儲存在主機的最上層目錄,其中User-agent定義搜尋引擎類型,Disallow定義禁止爬取的位址,Allow則定義允許爬取的位址,這份文件無實質約束力,但搜尋引擎仍會予以尊重,以免網站管理者祭出反爬機制,但Spielgel的爬蟲不僅擷取頻率高到形同阻斷服務,也被發現在爬取內容上並未遵守Robots協議。
        一直以來,華為有沒有GMS對華為在中國的運作沒有太大關係,畢竟Google面對中國市場多年來始終不得其門而入,中國用戶用的也是百度搜尋而不是Google,但在華為試圖以自有的HMS走出海外市場時,其生態圈的完整性就大有關係,而其中搜尋服務舉足輕重。


        IP属地:湖南4楼2020-05-19 22:20
        回复


          IP属地:湖南7楼2020-05-19 22:30
          回复
            5楼

            6楼


            IP属地:湖南8楼2020-05-19 22:38
            回复