一个人看的www视频在线免费观看,欧美日韩电影一区,中文在线8资源库,久久久噜噜噜久噜久久综合

INDUSTRY INFORMATION

新聞資訊

當前位置:首頁 > 新聞動態(tài)

騏秀科技:索引頁鏈接補全機制的一種方法

發(fā)布時間:2012-8-20 瀏覽:4708

  索引頁作為網(wǎng)站重要組成部分,它的存在避免了網(wǎng)頁變的過長而導致搜索和閱讀產(chǎn)生困難,但是不合理的索引會給搜索引擎的Spider造成困惑,那么該如何設置一個合理的索引頁呢。下面由騏秀科技(廣州網(wǎng)站建設)來做個分析:

  一、背景

  Spider位于搜索引擎數(shù)據(jù)流的最上游,負責將互聯(lián)網(wǎng)上的資源采集到本地,提供給后續(xù)檢索使用,是搜索引擎的最主要數(shù)據(jù)來源之一。spider系統(tǒng)的目標就是發(fā)現(xiàn)并抓取互聯(lián)網(wǎng)中一切有價值的網(wǎng)頁,為達到這個目標,首先就是發(fā)現(xiàn)有價值網(wǎng)頁的鏈接,當前spider有多種鏈接發(fā)現(xiàn)機制來盡量快而全的發(fā)現(xiàn)資源鏈接,本文主要描述其中一種針對特定索引頁的鏈接補全機制,并給出對這種特定類型的索引頁面的建議處理規(guī)范用于優(yōu)化收錄效果。

  當前大多數(shù)互聯(lián)網(wǎng)網(wǎng)站以索引頁和翻頁的形式來組織網(wǎng)站資源,當有新資源增加時,老資源往后推移到翻頁系列中。

  如下圖所示:

  圖表1

  http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

  圖2為18小時后該網(wǎng)頁翻頁系列的第四頁的內容,在這段時間內新增了三頁多的資源,圖1中紅色矩陣圈到的資源在18個小時后已經(jīng)往后有序推移到第4頁的紅色方塊處。

  圖表2 18小時后第四頁

  http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

  對spider來說,這種特定類型的索引頁是資源鏈接發(fā)現(xiàn)的一種有效渠道,但是由于spider是定期檢查這些網(wǎng)頁來獲得新增的資源鏈接,檢查的周期同資源鏈接發(fā)布的周期不可避免會有不同(spider會盡量探測網(wǎng)頁的發(fā)布周期,以合理的頻率來檢查網(wǎng)頁),周期不同的時候,資源鏈接很有可能就被推到翻頁序列中,所以spider需要對這種特殊類型的翻頁系列作翻頁補全,從而保證收錄資源的完全。

  二、主要思路

  本文主要討論這種資源按發(fā)布時間有序排布的網(wǎng)頁,即新發(fā)布的資源排布在翻頁第1頁(或翻頁最后一頁),老的資源往后(或者往前)有序推移的索引頁的補全機制。主要思路是將整個翻頁系列的網(wǎng)頁看成一個整體,綜合判定它們的抓取狀態(tài),通過記錄每次抓取網(wǎng)頁發(fā)現(xiàn)的資源鏈接,然后將此次發(fā)現(xiàn)的資源鏈接與歷史上發(fā)現(xiàn)的資源鏈接作比較,如果有交集,說明該次抓取發(fā)現(xiàn)了所有的新增資源;否則,說明該次抓取并未發(fā)現(xiàn)所有的新增資源,需要繼續(xù)抓取下一頁甚至下幾頁來發(fā)現(xiàn)所有的新增資源。

  2.1 資源鏈接是否按照時間排序

  判斷資源是否按發(fā)布時間排布是這類頁面的一個必要條件,那么如何判斷資源是否按發(fā)布時間排布呢?如上面圖1所示,有些頁面中每個資源鏈接后面跟隨著對應的發(fā)布時間,通過資源鏈接對應的時間集合,判斷時間集合是否按大到小或小到大排序,如果是的話,則說明網(wǎng)頁中的資源是按發(fā)布時間有序排布,反之亦然。圖1中資源從上到下對應的時間是越來越小的,即是資源按發(fā)布時間有序的。

  還有一類網(wǎng)頁,如下面圖3所示,網(wǎng)頁內容中有多種排序方式,如按銷量排序,按價格排序,如評論數(shù)排序,按上架時間排序。通過識別和提取當前的排序方式,然后判斷當前的排序方式是否為按時間排序,如果是,則說明網(wǎng)頁中的資源是按發(fā)布時間有序排布,反之亦然。圖3中的排序方式是按上架時間排序,屬于時間排序方式,所以該網(wǎng)頁發(fā)布的資源是按發(fā)布時間有序的。

  另外也會根據(jù)資源鏈接抓回后提取的發(fā)布時間綜合判斷。

  圖表3 多種排序方式的索引頁

  2.2 補全機制

  對于按發(fā)布時間有序排布在索引頁系列的資源鏈接,如何保證新發(fā)布的資源都被收錄呢?如上述所說,在18個小時后,圖1中的資源鏈接已經(jīng)往后有序推移到翻頁第4頁了,如此看,這段時間內新增了翻頁第2,3,4頁索引的資源鏈接,那么,spider就需要完全的收錄這些新增的資源;

  首先,當spider抓取18小時后的第1頁時,將新發(fā)現(xiàn)的資源鏈接集合,與上一次18小時前第1頁索引頁調度記錄的資源鏈接集合作比較,會發(fā)現(xiàn)兩次調度發(fā)現(xiàn)的資源鏈接沒有交集,所以就可能存在漏鏈。進而需要繼續(xù)發(fā)起第2頁的調度,第2頁發(fā)現(xiàn)的資源鏈接集合與之仍然沒有交集,所以還可能存在漏鏈,繼續(xù)發(fā)起第3頁,第4頁的調度,最終如圖2所示,紅框中的鏈接與上一次索引頁調度記錄的資源鏈接有交集,因此可以斷定已經(jīng)補全了這段時間內新增的資源,從而結束翻頁系列的調度,并保證了該翻頁系列的所有鏈接的補全,從而提升搜索產(chǎn)品的收錄效果。

  2.3 翻頁條的識別和翻頁條對應的鏈接序列區(qū)塊的識別

  為了達到上面的效果,除了需要識別翻頁系列的排序方式是不是按照時間排序,還需要識別索引頁中的翻頁條和其對應的鏈接區(qū)塊。

  因為沒有翻頁條的識別,spider系統(tǒng)就不可能把這個翻頁序列的所有鏈接綁定起來,整體考慮它們的狀態(tài),那么調度抓取的結果就是隨機的,從而不能保證補全效果,當前通過網(wǎng)頁中的翻頁的一系列特征,通過機器學習的方法來識別網(wǎng)頁中的翻頁區(qū)塊和翻頁深度,以及上一頁,下一頁的鏈接,從而為上述補全機制提供基本數(shù)據(jù)。

  另外一方面,即使有了翻頁條的識別,沒有對應鏈接區(qū)塊的識別,上述補全機制還是不能工作,因為上述機制需要對比發(fā)現(xiàn)的鏈接的集合來判定終止條件,所以,也需要識別翻頁條對應的鏈接區(qū)塊,從而提供翻頁終止條件。

  特殊情況下,一個網(wǎng)頁可能包含多個翻頁條,這種情況更需要進行翻頁條和鏈接區(qū)塊的對應。

  三、建議的方法和標準

  當前百度spider系統(tǒng)對網(wǎng)頁的類型,網(wǎng)頁中翻頁條的位置,翻頁條對應的索引列表,以及列表是否按照時間排序都會做相應的判斷,并根據(jù)實際的情況進行處理,但是機器自動的判斷方法畢竟不能做到100%的識別準確率,所以如果站長能夠通過在頁面中添加一些百度推薦的標簽來標志相應的功能區(qū)域,就可以極大地提高我們識別的準確率,從而提高spider系統(tǒng)對網(wǎng)站資源發(fā)現(xiàn)的即時性,從而提高網(wǎng)站的收錄效果。

  Spider鏈接補全當前最關心的是網(wǎng)頁的翻頁條和翻頁條對應的索引鏈接列表的區(qū)塊,所以可以通過區(qū)塊的元素(譬如div,ul)的class屬性來標志相應的特征,供百度spider識別使用,建議使用下面的屬性來標志:

  表1 支持的CLASS擴展屬性

  譬如百度新聞的頁面可以這樣設置:

  對翻頁條對應的區(qū)塊元素p可以設置class屬性Baidu_paging_indicator,對該翻頁條對應的主體鏈接的區(qū)塊元素div,設置 Baidu_paging_content_indicator Orderby_posttime,這樣翻頁條和對應的鏈接區(qū)塊就對應起來,并且告知了百度是按照發(fā)布時間排序的,從而可以優(yōu)化spider系統(tǒng)的抓取行為,改善站點的收錄效果。

  四、總結

  除了上面說明的鏈接發(fā)現(xiàn)方法,Baidu的抓取系統(tǒng)還有非常多的其他手段來保證對有價值網(wǎng)站的收錄覆蓋率,上述方法只是針對特定索引頁類型而采取的一種特定的手段,互聯(lián)網(wǎng)站長可以參考使用。站長也可以通過spider的站長平臺來了解 如何獲得更快更好的網(wǎng)站收錄效果,譬如直接通過sitemap協(xié)議推送鏈接。騏秀科技(廣州網(wǎng)站優(yōu)化)建議 各位讀者:網(wǎng)站資料要定期更新,不要一會多一會少,合理的發(fā)表新聞數(shù)量,讓搜索引擎來的勤快些,那收錄就不是問題了

  1. 保障接單

    做網(wǎng)絡就是為了多條賺錢渠道
  2. 顧問式服務

    針對不同行業(yè)提供解決方案
  3. 專業(yè)團隊

    專業(yè)技術員和銷售員
  4. 一站式服務

    從建站到推廣讓你無煩惱
一个人看的www视频在线免费观看,欧美日韩电影一区,中文在线8资源库,久久久噜噜噜久噜久久综合
国产精品国产三级国产普通话蜜臀| 亚洲美女少妇撒尿| 欧美日韩成人一区| 激情综合色综合久久| 国产专区欧美精品| 亚洲欧美国产毛片在线| 69堂国产成人免费视频| 夜夜嗨av一区二区三区网页| 91成人在线免费观看| 国产蜜臀av在线一区二区三区| 亚洲美女在线国产| 成人app在线观看| 欧美精品v日韩精品v韩国精品v| 亚洲国产精品久久人人爱| 久久www免费人成看片高清| 精品国产乱码91久久久久久网站| 丝袜美腿亚洲一区| 欧美草草影院在线视频| 久久先锋影音av| 国产精品女主播av| 亚洲国产日韩a在线播放| 精品视频一区 二区 三区| 麻豆成人91精品二区三区| 亚洲男人天堂av网| 欧美一区二区三区影视| 成人高清视频在线观看| 欧美日韩在线三级| 亚洲一卡二卡三卡四卡无卡久久| 亚洲欧洲一区二区在线播放| 2欧美一区二区三区在线观看视频| 91免费在线视频观看| 7777精品伊人久久久大香线蕉超级流畅| 在线一区二区三区| 成人av免费观看| 欧美成人综合网站| 有坂深雪av一区二区精品| 国产精品羞羞答答xxdd| 亚洲精品一区二区三区99| 日本一区二区免费在线观看视频| 日韩精品一区二区三区三区免费| 亚洲在线观看免费视频| 亚洲丝袜精品丝袜在线| 欧美日韩在线播放| 欧美在线观看视频一区二区| 国模无码大尺度一区二区三区| 中文字幕一区二区在线播放| 欧亚洲嫩模精品一区三区| 亚洲精品欧美在线| 青青草国产精品亚洲专区无| 久久久久久久久久电影| 日韩精品中文字幕在线一区| 中文字幕在线一区二区三区| 色妹子一区二区| 精品国产a毛片| 国产激情偷乱视频一区二区三区| 亚洲一二三区不卡| 男女性色大片免费观看一区二区| 91丨九色丨蝌蚪富婆spa| 日韩美女视频一区二区| 青青草原综合久久大伊人精品优势| 综合久久久久综合| 97国产精品videossex| 欧美精品一区二区三区视频| 黄页网站大全一区二区| 国产一区在线不卡| 成+人+亚洲+综合天堂| 午夜精品福利一区二区蜜股av| 亚洲线精品一区二区三区| 欧美丝袜自拍制服另类| 午夜日韩在线观看| 久久超碰97人人做人人爱| 国产老妇另类xxxxx| 成人综合在线网站| 亚洲一区二区三区中文字幕| 另类综合日韩欧美亚洲| 久久夜色精品一区| 日韩精品午夜视频| 日日夜夜免费精品视频| 久久久青草青青国产亚洲免观| 日韩伦理免费电影| 久久久久久久综合| 久久久国产一区二区三区四区小说| 欧美电影免费提供在线观看| 一区二区免费在线| 欧美一级欧美三级| 黑人巨大精品欧美黑白配亚洲| 麻豆精品一区二区综合av| 久久激情五月婷婷| 大胆欧美人体老妇| 午夜av一区二区| 亚洲一区二三区| 亚洲成人av一区二区| 青青草国产精品亚洲专区无| 欧美精品自拍偷拍动漫精品| 日韩一区二区免费在线电影| 视频一区中文字幕国产| 国产精品综合在线视频| 精品一区二区综合| 国产精品久久久久9999吃药| 国产毛片一区二区| 亚洲欧洲成人自拍| 亚洲精品久久久久久国产精华液| 精品亚洲aⅴ乱码一区二区三区| 亚洲精品亚洲人成人网| 成人一区二区三区中文字幕| 色噜噜狠狠成人中文综合| 久久精品亚洲一区二区三区浴池| 欧美日韩一区小说| 亚洲美女视频在线观看| 日韩欧美美女一区二区三区| 91看片淫黄大片一级| 久久久久青草大香线综合精品| 久久这里只精品最新地址| 亚洲一区视频在线观看视频| av电影天堂一区二区在线观看| 欧美视频中文字幕| 成人一区二区三区中文字幕| 亚洲精品日韩专区silk| 丰满少妇久久久久久久| 亚洲女同女同女同女同女同69| 国产成人免费网站| 国产在线乱码一区二区三区| 亚洲精品自拍动漫在线| 一色桃子久久精品亚洲| 久久久精品tv| 久久精品亚洲国产奇米99| 欧美激情一区二区三区蜜桃视频| av欧美精品.com| 日韩精品一区二区三区老鸭窝| 精品国精品国产尤物美女| 欧美日韩高清在线播放| 欧美一区二区久久| 色综合久久久久综合体桃花网| 亚洲va韩国va欧美va| 一区二区三区美女| 欧美日韩国产精品成人| 久久久亚洲精品一区二区三区| 色哟哟国产精品免费观看| 精品国产乱码久久久久久免费| 国产精品国产三级国产aⅴ无密码| 久久精品99国产精品日本| 亚洲精品日韩专区silk| 国产成人午夜高潮毛片| 蜜臀av性久久久久蜜臀aⅴ流畅| 老汉av免费一区二区三区| 婷婷久久综合九色综合伊人色| 久久综合九色欧美综合狠狠| 亚洲欧美日韩一区二区三区在线观看| 美女一区二区三区在线观看| 欧美精品在线一区二区| 欧美日韩日日摸| 韩国欧美国产一区| 欧美天堂一区二区三区| 中文字幕乱码久久午夜不卡| 国产精品系列在线播放| 美腿丝袜一区二区三区| 欧美一区二区福利视频| 久久久久综合网| 国产精品沙发午睡系列990531| 精品国产1区二区| 国产成人精品三级| 国产一区不卡视频| 日韩女优av电影在线观看| 欧美日韩免费一区二区三区| 亚洲国产一二三| 日本美女视频一区二区| 在线电影院国产精品| 欧美亚洲免费在线一区| 一区二区高清视频在线观看| 国产精品国产三级国产aⅴ原创| 精品日韩一区二区| 99久久精品免费精品国产| 91麻豆国产在线观看| 国产精品久久久久久久久久免费看| 亚洲高清在线精品| 国产iv一区二区三区| 国产日韩欧美激情| 国产精品狼人久久影院观看方式| 久久久久久久久久久久久夜| 色偷偷久久人人79超碰人人澡| 制服丝袜亚洲色图| 欧美成人伊人久久综合网| 国产日产欧美一区二区三区| 欧美成人女星排名| 理论片日本一区| 日韩欧美另类在线| 国产精品久久久久桃色tv| 国产精品国产三级国产有无不卡| 午夜精品国产更新| 国产精品乱码久久久久久| 一区二区在线观看av| 精品久久久久久久一区二区蜜臀| 亚洲视频一区在线| 在线一区二区三区做爰视频网站| 69p69国产精品| 久久精品久久综合| 婷婷成人综合网| 亚洲高清视频中文字幕| 亚洲免费高清视频在线| 国产欧美精品一区二区三区四区|