政府門戶垂直搜索引擎的典范——中央人民政府門戶搜索引擎

  央網(wǎng)搜索引擎建設(shè)背景

  截止到2004年底,我國(guó)以gov.cn命名的站點(diǎn)數(shù)達(dá)到了10260個(gè),93%的部委擁有部門網(wǎng)站,73%的地方政府擁有門戶網(wǎng)站,這對(duì)我國(guó)政府職能轉(zhuǎn)變和創(chuàng)新管理方式的推動(dòng)起到了重要作用,但也凸顯了各地政務(wù)信息分散,缺乏有效的分類組織和整合等問(wèn)題,影響了政府的政務(wù)決策水平和政務(wù)信息公開效率的進(jìn)一步提升。
  那么如何有效整合政務(wù)信息資源,發(fā)揮政務(wù)信息資源的效力? 中央決定建立權(quán)威、集中的中央政府門戶網(wǎng)站來(lái)改變這種現(xiàn)狀,中央人民政府門戶(簡(jiǎn)稱央網(wǎng))的建成將成為各部委及各地方政府信息資源的匯聚點(diǎn),并最終成為政務(wù)信息發(fā)布和提供在線支持的綜合服務(wù)平臺(tái)。而在央網(wǎng)中搭建專業(yè)的政務(wù)垂直搜索引擎無(wú)疑是有效的解決方式之一。

  央網(wǎng)搜索引擎功能簡(jiǎn)介

  通過(guò)http://sousuo.gov.cn進(jìn)入央網(wǎng)搜索引擎主頁(yè),搜索主頁(yè)包含了國(guó)網(wǎng)網(wǎng)站搜索、國(guó)務(wù)院公報(bào)搜索、政府網(wǎng)站搜索、圖片搜索、文檔搜索、服務(wù)搜索等搜索分類。國(guó)網(wǎng)網(wǎng)站搜索是指對(duì)國(guó)家門戶網(wǎng)站http://www.gov.cn自身發(fā)布內(nèi)容的搜索功能;國(guó)務(wù)院公報(bào)搜索是指對(duì)國(guó)務(wù)院公報(bào)內(nèi)容進(jìn)行搜索;政府網(wǎng)站搜索是指對(duì)各級(jí)政府網(wǎng)站的網(wǎng)頁(yè)內(nèi)容搜索;圖片搜索是指對(duì)各級(jí)政府網(wǎng)站上的圖片進(jìn)行搜索;文檔搜索是指對(duì)各級(jí)政府網(wǎng)站上的文檔內(nèi)容進(jìn)行搜索,比如WORD、PDF、Excel、PPT等;服務(wù)搜索是指搜索國(guó)內(nèi)相關(guān)政府網(wǎng)站上所提供的服務(wù)。通過(guò)這樣的分類,可以方便公眾有針對(duì)性地選擇搜索目標(biāo)。
對(duì)于每一種分類搜索,系統(tǒng)都提供“高級(jí)搜索”功能,在高級(jí)搜索界面上,用戶可以根據(jù)來(lái)源、日期(范圍)、標(biāo)題、作者、正文等屬性進(jìn)行搜索,并且可以指定結(jié)果的排序方式是按照網(wǎng)頁(yè)的時(shí)間排序,還是按照內(nèi)容的相關(guān)度進(jìn)行排序。
  在搜索性能方面,基于目前的服務(wù)器配置,國(guó)家門戶搜索引擎能夠支持瞬間300個(gè)并發(fā)用戶的搜索請(qǐng)求,并可平滑進(jìn)行硬件擴(kuò)展,滿足今后應(yīng)用擴(kuò)展的需求。


            國(guó)家門戶網(wǎng)站站內(nèi)搜索界面

  央網(wǎng)搜索引擎的應(yīng)用特點(diǎn)和優(yōu)勢(shì)

   垂直專業(yè)搜索----整合政務(wù)網(wǎng)絡(luò)信息

     央網(wǎng)搜索引擎實(shí)現(xiàn)了對(duì)全國(guó)副省級(jí)以上政府網(wǎng)站(350家)內(nèi)容和服務(wù)的采集;實(shí)現(xiàn)了包括按信息分類、條件組合、文件類型、圖片、區(qū)域等多種檢索方式,同時(shí)實(shí)現(xiàn)了對(duì)多語(yǔ)種、多文種的檢索。

   與政府網(wǎng)站標(biāo)準(zhǔn)化建設(shè)緊密結(jié)合----實(shí)現(xiàn)更好的搜索效果

  如果搜索引擎能夠更好地“理解”網(wǎng)頁(yè)內(nèi)容,那么相信會(huì)提供更好的搜索服務(wù)。在央網(wǎng)搜索引擎系統(tǒng)的建設(shè)過(guò)程中,TRS制定了政府網(wǎng)站內(nèi)容格式規(guī)范,把搜索引擎建設(shè)和各級(jí)政府網(wǎng)站的標(biāo)準(zhǔn)化建設(shè)緊密結(jié)合在一起。央網(wǎng)門戶搜索引擎對(duì)于符合政府網(wǎng)站內(nèi)容格式標(biāo)準(zhǔn)的網(wǎng)頁(yè),能夠按照標(biāo)準(zhǔn)進(jìn)行內(nèi)容分析,提高了網(wǎng)頁(yè)分析的準(zhǔn)確性,實(shí)現(xiàn)了更好的搜索效果。

  實(shí)時(shí)更新搜索信息----第一時(shí)間獲取一手信息

  央網(wǎng)搜索引擎所提供的搜索內(nèi)容,必須能夠及時(shí)反映政府網(wǎng)站的內(nèi)容變化,各級(jí)政府網(wǎng)站上新發(fā)布的政務(wù)信息和辦事指南應(yīng)能及時(shí)搜索。目前各級(jí)網(wǎng)站發(fā)布的新網(wǎng)頁(yè)一般在30分鐘之內(nèi)就可在央網(wǎng)門戶搜索引擎中搜索到。

  分類搜索----方便用戶的搜索過(guò)程

  央網(wǎng)搜索引擎對(duì)公眾提供了方便的政務(wù)信息、辦事指南搜索,合理的分類可以方便用戶的搜索過(guò)程。央網(wǎng)門戶搜索引擎按照服務(wù)的類型將搜索內(nèi)容細(xì)分為站內(nèi)搜索、國(guó)務(wù)院公報(bào)搜索、圖片搜索、文檔搜索、政府網(wǎng)站搜索等幾種類型。央網(wǎng)門戶搜索引擎在采集到的搜索各個(gè)環(huán)節(jié)都需要進(jìn)行細(xì)致的分類工作。

  深度精準(zhǔn)搜索----獲得互聯(lián)網(wǎng)搜索不能提供的滿意體驗(yàn)

  央網(wǎng)搜索引擎是對(duì)各級(jí)政府網(wǎng)站的全部網(wǎng)頁(yè)內(nèi)容進(jìn)行采集和索引;央網(wǎng)搜索引擎對(duì)網(wǎng)頁(yè)的全部?jī)?nèi)容建立索引,進(jìn)行檢索;央網(wǎng)搜索引擎能夠?yàn)橛脩籼峁┩暾乃阉鹘Y(jié)果集,搜索到的所有網(wǎng)頁(yè)都是可瀏覽的,采用的是精確檢索技術(shù)。
  
  多種文檔搜索----整合內(nèi)部對(duì)象信息資源

  《國(guó)務(wù)院公報(bào)》集中準(zhǔn)確地收集了國(guó)家法規(guī)、聲明、任免等重要文件,是國(guó)家最重要的政務(wù)信息資源之一?;赥RS Database Server 的全文數(shù)據(jù)庫(kù)服務(wù)器平臺(tái),為其提供了精準(zhǔn)的搜索手段。包括簡(jiǎn)單檢索,以及針對(duì)于內(nèi)容分類、發(fā)文單位、文號(hào)、期號(hào)、文件類別等元數(shù)據(jù)的組合檢索手段。滿足了不同層次的用戶對(duì)國(guó)務(wù)院公報(bào)的精確檢索。

  應(yīng)用服務(wù)搜索----創(chuàng)新的政務(wù)服務(wù)搜索功能

  系統(tǒng)整合了部委和各省市的政務(wù)服務(wù),以及相關(guān)的政策資源。用戶通過(guò)輸入關(guān)鍵詞,就可以在頁(yè)面上一并獲得網(wǎng)上辦事的鏈接入口和相關(guān)政策信息,大大方便了用戶的同時(shí),提高了政府的辦事效率和服務(wù)水平,凸顯電子政務(wù)價(jià)值。

  什么是垂直搜索引擎

  垂直搜索引擎的定義
  搜索引擎的出現(xiàn),整合了互聯(lián)網(wǎng)上眾多的網(wǎng)頁(yè)資源,并提供信息導(dǎo)航和信息查詢服務(wù),使信息的價(jià)值得到了網(wǎng)民和廠商的普遍認(rèn)可。但是,搜索引擎的發(fā)展格局是多方面的,市場(chǎng)需求的多元化也導(dǎo)致了搜索引擎的行業(yè)化和細(xì)分化,從而“垂直搜索引擎”成為了搜索引擎發(fā)展的必然趨勢(shì)之一。
TRS認(rèn)為:垂直搜索引擎是針對(duì)某一個(gè)行業(yè)或組織,滿足行業(yè)專業(yè)需求、或者組織某項(xiàng)業(yè)務(wù)需求的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)某類網(wǎng)頁(yè)資源和結(jié)構(gòu)化資源的深度整合,并為用戶提供符合專業(yè)用戶操作行為的信息服務(wù)方式。

  政府相關(guān)的垂直搜索引擎
  主要表現(xiàn)為面向內(nèi)部的垂直搜索和面向外部的垂直搜索,面向內(nèi)部的垂直搜索主要是指政府內(nèi)部專網(wǎng)網(wǎng)站群的搜索,同時(shí)集成數(shù)據(jù)庫(kù)搜索功能,為政府工作人員和領(lǐng)導(dǎo)提供快速定位信息的方式,為日常工作和領(lǐng)導(dǎo)決策提供支持;面向外部的垂直搜索主要是指政府門戶網(wǎng)站群搜索,同時(shí)集成法律法規(guī)等數(shù)據(jù)庫(kù)搜索功能,整合政務(wù)服務(wù)資源,為民眾和企業(yè)提供更好的服務(wù),最大的發(fā)揮政務(wù)資源的效用。

  垂直搜索、企業(yè)搜索、互聯(lián)網(wǎng)搜索的區(qū)別

  信息采集:融合了互聯(lián)網(wǎng)搜索和企業(yè)搜索的特點(diǎn)
     從采集方式看,互聯(lián)網(wǎng)搜索以被動(dòng)方式為主,搜索引擎和被采集的網(wǎng)頁(yè)沒(méi)有約定的、標(biāo)準(zhǔn)的格式;企業(yè)搜索以主動(dòng)方式為主,被采集的辦公文檔、CRM和ERP中的數(shù)據(jù)等都和企業(yè)搜索引擎有著約定好的采集接口和安全接口;垂直搜索則采用被動(dòng)和主動(dòng)想結(jié)合的方式,通過(guò)主動(dòng)方式,有效采集網(wǎng)頁(yè)中標(biāo)引的元數(shù)據(jù),整合上下游網(wǎng)頁(yè)資源或者商業(yè)數(shù)據(jù)庫(kù),提供更加準(zhǔn)確的搜索服務(wù)。如:中華人民共和國(guó)中央人民政府網(wǎng)站垂直搜索引擎,它通過(guò)規(guī)范副省級(jí)政府門戶網(wǎng)站網(wǎng)頁(yè)的表達(dá)方式,達(dá)到有效采集網(wǎng)頁(yè)元數(shù)據(jù)的目的,為企業(yè)和個(gè)人提供更精準(zhǔn)的政務(wù)信息搜索服務(wù)。
  從對(duì)采集深度、動(dòng)態(tài)網(wǎng)頁(yè)采集的優(yōu)先級(jí)、結(jié)構(gòu)化數(shù)據(jù)庫(kù)信息采集來(lái)看,互聯(lián)網(wǎng)搜索采用廣度為先的策略,所以對(duì)采集深度要求不高,而垂直搜索和企業(yè)搜索需要挖掘出行業(yè)內(nèi)所有相關(guān)的網(wǎng)頁(yè)信息,所以往往采用深度為先的策略,同時(shí)由于行業(yè)內(nèi)的一些有商業(yè)價(jià)值的信息采用動(dòng)態(tài)發(fā)布的方式,如:企業(yè)數(shù)據(jù)庫(kù)、供求信息等,所以垂直搜索對(duì)動(dòng)態(tài)網(wǎng)頁(yè)的采集優(yōu)先級(jí)別較高。另外,在實(shí)際應(yīng)用中,垂直搜索和企業(yè)搜索都需要集成和采集關(guān)系數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化信息,如:垂直搜索中政府需要集成法律法規(guī)庫(kù)、企業(yè)搜索中需要采集ERP、CRM中的信息等。

  信息加工:非結(jié)構(gòu)化信息和結(jié)構(gòu)化信息是垂直搜索的特色 

  垂直搜索引擎和普通的網(wǎng)頁(yè)搜索引擎的最大區(qū)別是對(duì)網(wǎng)頁(yè)信息進(jìn)行了結(jié)構(gòu)化信息抽取加工,也就是將網(wǎng)頁(yè)的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化信息數(shù)據(jù),好比網(wǎng)頁(yè)搜索是以網(wǎng)頁(yè)為最小單位,而垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為最小單位。
  垂直搜索的結(jié)構(gòu)化信息提取和加工主要包括兩種:網(wǎng)頁(yè)元數(shù)據(jù)的提取,標(biāo)題、作者、發(fā)表時(shí)間、版權(quán)所有等等;內(nèi)容中結(jié)構(gòu)化實(shí)體信息的提取,人名、地名、組織機(jī)構(gòu)名、電話號(hào)碼等等。同時(shí),這些數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù),進(jìn)行進(jìn)一步的加工處理,如:去重、分類等,最后分詞、索引再以搜索的方式滿足用戶的需求。
  目前,從垂直搜索的應(yīng)用情況看,大部分垂直搜索的結(jié)構(gòu)化信息提取都是依靠手工、半手工的方式來(lái)完成,面對(duì)互聯(lián)網(wǎng)的海量信息,很難保證信息的實(shí)時(shí)性和有效性,因此對(duì)智能化的,結(jié)構(gòu)化信息提取技術(shù)的需求非常迫切。同時(shí)國(guó)內(nèi)非結(jié)構(gòu)化信息的智能提取技術(shù)目前也取得重大進(jìn)展,在一些領(lǐng)域得到有效應(yīng)用,智能化是垂直搜索引擎的發(fā)展趨勢(shì)。

  信息檢索:結(jié)構(gòu)化和非結(jié)構(gòu)化相結(jié)合的檢索方式

     從信息檢索看, 垂直搜索不但能夠?qū)W(wǎng)頁(yè)信息中的結(jié)構(gòu)化信息進(jìn)行檢索,而且能夠提供結(jié)構(gòu)化和非結(jié)構(gòu)化信息相結(jié)合的檢索方式。比如我們找工作關(guān)注的:職位信息: 軟件工程師;公司名稱:軟件公司;地點(diǎn):北京海淀。
    從檢索結(jié)果的排序方式看,互聯(lián)網(wǎng)搜索通過(guò)PageRank算法來(lái)實(shí)現(xiàn),企業(yè)搜索大多采用檢索內(nèi)容和檢索詞的相關(guān)度進(jìn)行排序,相對(duì)于互聯(lián)網(wǎng)搜索和企業(yè)搜索,垂直搜索的排序需求更加多樣化,如:按時(shí)間排序、按相關(guān)度排序、按某個(gè)結(jié)構(gòu)化字段排序(如:購(gòu)物搜索中的按價(jià)格排序等等)。

  垂直搜索引擎在政府門戶中的應(yīng)用價(jià)值

  整合政務(wù)資源,有效提升政務(wù)資源價(jià)值

     門戶技術(shù)中的“網(wǎng)站群技術(shù)”和“全文檢索技術(shù)“有效的整合了行政領(lǐng)導(dǎo)關(guān)系比較緊密地部門內(nèi)部的信息資源,垂直搜索技術(shù)則有效整合了行政領(lǐng)導(dǎo)關(guān)系比較松散地機(jī)構(gòu)間的信息資源,使得政務(wù)信息資源的聚攏和整合得以最大化,政務(wù)資源的可挖掘能力得到提高,從而有效地提升了政務(wù)資源的價(jià)值。

  一站式檢索和導(dǎo)航服務(wù),提高政府門戶的公眾服務(wù)水平

     面對(duì)多如繁星的政府門戶網(wǎng)站,用戶查詢信息和網(wǎng)上辦事時(shí)往往無(wú)所適從,政務(wù)垂直搜索引擎的建設(shè)恰恰解決了這個(gè)問(wèn)題,用戶可以通過(guò)搜索引擎的各種檢索方式,方便的獲取過(guò)去需要訪問(wèn)多個(gè)網(wǎng)站才能查全的信息,同時(shí)也可以通過(guò)檢索獲取網(wǎng)上辦事的入口,例如:在央網(wǎng)搜索引擎的規(guī)劃中將繼續(xù)開發(fā)服務(wù)搜索這個(gè)模塊,通過(guò)檢索您就可以輕松獲取副部級(jí)網(wǎng)站上的辦事鏈接網(wǎng)址。一站式檢索和導(dǎo)航服務(wù),大大方便了市民和企業(yè),提高了政府門戶網(wǎng)站的服務(wù)水平。
   
  政治體制改革環(huán)境下,“凝聚”組織機(jī)構(gòu)的有效手段

    市場(chǎng)格局的變化,按照“大社會(huì)、小政府”的思維模式,政府介入微觀經(jīng)濟(jì)領(lǐng)域越來(lái)越少,國(guó)家各個(gè)行業(yè)的部分機(jī)構(gòu)由事業(yè)型機(jī)構(gòu)轉(zhuǎn)為企業(yè)。部委和下面的機(jī)構(gòu)之間已經(jīng)沒(méi)有了行政領(lǐng)導(dǎo)職能,但是業(yè)務(wù)上還是存在千絲萬(wàn)縷的聯(lián)系,兩者還存在業(yè)務(wù)指導(dǎo)關(guān)系。垂直搜索引擎將兩者有效的“凝聚在一起”,通過(guò)“信息的關(guān)聯(lián)”把大家聯(lián)系在一起,有利于行業(yè)內(nèi)的交流和協(xié)作。

  垂直搜索引擎在政府門戶中的應(yīng)用展望

 “門戶+搜索”將會(huì)成為政府門戶網(wǎng)站建設(shè)的新模式
   正如上面所述,門戶技術(shù)(網(wǎng)站群和內(nèi)容管理技術(shù))只是解決了行政領(lǐng)導(dǎo)關(guān)系比較緊密的政府機(jī)構(gòu)的信息資源整合,對(duì)于行政領(lǐng)導(dǎo)關(guān)系比較松散的政府機(jī)構(gòu)的信息資源整合,則必須采用被動(dòng)搜索的方式。隨著地市級(jí)、縣級(jí)政務(wù)門戶的普及,省級(jí)門戶首先考慮采用搜索技術(shù)整合下屬門戶網(wǎng)上資源,為民眾、企業(yè)提供便捷的信息獲取手段和導(dǎo)航服務(wù)。實(shí)踐證明很多省級(jí)、部委門戶已經(jīng)展開了政府門戶垂直搜索引擎的建設(shè),并取得了很好的效果,    “門戶+搜索”正在成為政府門戶網(wǎng)站建設(shè)的新模式。

  聯(lián)合搜索將會(huì)成為政府門戶垂直搜索的特色
    隨著政府門戶中垂直搜索引擎的建設(shè),當(dāng)下級(jí)政府部門已經(jīng)建立了自身職責(zé)范圍內(nèi)的信息資源的整合和搜索以后,上級(jí)部門則可不采用被動(dòng)抓取的方式來(lái)整合這部分資源,可以通過(guò)聯(lián)合搜索的方式搜索這部分資源,即:將用戶的關(guān)鍵詞發(fā)送到下級(jí)政府部門的搜索引擎,對(duì)結(jié)果集合并后返回給用戶。聯(lián)合搜索的方式具有下面兩個(gè)優(yōu)點(diǎn):第一,省時(shí)省力,節(jié)約資金,防止重復(fù)建設(shè);第二,和被動(dòng)的抓取方式相比,獲取的信息比較全面和及時(shí)。
 

責(zé)任編輯:admin