政務(wù)大數(shù)據(jù)在物理上分為“數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算和數(shù)據(jù)服務(wù)”三個(gè)重要層面,其物理模型示意圖如下:

政務(wù)大數(shù)據(jù)的物理模型

  就政務(wù)大數(shù)據(jù)的物理模型整體而言,存儲(chǔ)層是技術(shù)基礎(chǔ)、計(jì)算層是核心能力、服務(wù)層是核心價(jià)值。立體、全方位(全面覆蓋數(shù)據(jù)訪問鑒權(quán)認(rèn)證、數(shù)據(jù)安全傳輸和數(shù)據(jù)安全存儲(chǔ)等全過程&全生命周期)的安全保障機(jī)制與體系建設(shè)是政務(wù)大數(shù)據(jù)提供和使用服務(wù)的基本前提。綜合、系統(tǒng)化(充分運(yùn)用系統(tǒng)工程思想,不斷提升、優(yōu)化整個(gè)鏈條的價(jià)值再生&可持續(xù)能力)的運(yùn)營支撐機(jī)制與體系建設(shè)是為實(shí)現(xiàn)政務(wù)大數(shù)據(jù)“自治和自優(yōu)化”這一最終目標(biāo)做準(zhǔn)備的。注:在《政務(wù)大數(shù)據(jù)的本質(zhì)》一文中提到:“政務(wù)大數(shù)據(jù)的未來是數(shù)據(jù)自治”。

  有關(guān)政務(wù)大數(shù)據(jù)的立體安全保障機(jī)制與體系建設(shè)將在后續(xù)文章《政務(wù)大數(shù)據(jù)的安全》中具體展開,有關(guān)政務(wù)大數(shù)據(jù)的綜合運(yùn)營支撐機(jī)制與體系建設(shè)將在后續(xù)文章《政務(wù)大數(shù)據(jù)的運(yùn)營》中具體展開,本文重點(diǎn)討論政務(wù)大數(shù)據(jù)的存儲(chǔ)、計(jì)算和服務(wù)三層物理模型。

  如同資源虛擬化是實(shí)現(xiàn)云計(jì)算的重要具體技術(shù),大數(shù)據(jù)也離不開數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、決策支持、商業(yè)智能、分布式計(jì)算等傳統(tǒng)IT技術(shù)。然而,大數(shù)據(jù)是一個(gè)更加綜合、龐雜的生態(tài)體系,它需要IT技術(shù)的支撐但不僅僅是IT技術(shù)本身,其本質(zhì)上還是數(shù)據(jù),是能夠資源化的、有商業(yè)價(jià)值的數(shù)據(jù)。海量數(shù)據(jù)始終存在,但以前將其存儲(chǔ)起來是一個(gè)問題,隨著存儲(chǔ)軟硬件技術(shù)的發(fā)展,容量已經(jīng)不是問題,可以實(shí)際利用的海量數(shù)據(jù)就產(chǎn)生了。還有就是計(jì)算能力的快速發(fā)展,使得基于海量數(shù)據(jù)進(jìn)行全樣本的計(jì)算和分析由不可能變成現(xiàn)實(shí)。具體到政務(wù)大數(shù)據(jù)而言,很多時(shí)候其體量并不大,原因在于長期以來被人為的按照地域、按照職能、按照主題、按照數(shù)據(jù)類型分割了。這種分割的現(xiàn)狀源于之前對(duì)全樣本數(shù)據(jù)進(jìn)行存儲(chǔ)、通信和計(jì)算的能力局限,以及數(shù)據(jù)的價(jià)值密度過低而持有成本過高。隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展,以及物聯(lián)網(wǎng)、工業(yè)4.0以及機(jī)器智能技術(shù)的不斷成熟,政務(wù)大數(shù)據(jù)具備了發(fā)展的土壤,也具備了發(fā)展的時(shí)機(jī)。歸根到底,政務(wù)大數(shù)據(jù)的核心價(jià)值在于政務(wù)優(yōu)化(協(xié)同、治理、服務(wù)和決策)。如果政務(wù)優(yōu)化比作一個(gè)人的綜合價(jià)值,存儲(chǔ)層就是其記憶的信息和知識(shí)(記憶力和記憶量),計(jì)算層是其學(xué)和做的能力(智商和反應(yīng)能力),服務(wù)層是其結(jié)果規(guī)劃、產(chǎn)出能力(大局觀、情商和效率)。

  政務(wù)大數(shù)據(jù)的存儲(chǔ)層從大的方面來講就是要解決好結(jié)構(gòu)化和非結(jié)構(gòu)化兩類數(shù)據(jù)的存儲(chǔ)問題。這兩類數(shù)據(jù)并不孤立,而且需要相互轉(zhuǎn)化:非結(jié)構(gòu)化的數(shù)據(jù)往往需要將其屬性信息結(jié)構(gòu)化,如視頻、圖像、聲音、文檔等非結(jié)構(gòu)化數(shù)據(jù)所表達(dá)的主題、關(guān)鍵詞、人物對(duì)象等信息往往會(huì)以結(jié)構(gòu)化的方式予以展現(xiàn);同時(shí),結(jié)構(gòu)化的信息也需要轉(zhuǎn)換成非結(jié)構(gòu)化的形式,比如企業(yè)或個(gè)人信用信息往往需要形成一份可讀的文檔型的信用報(bào)告,還有類似語音導(dǎo)航、智能設(shè)備的智能控制,根據(jù)矢量數(shù)據(jù)進(jìn)行地圖繪制以及三維建模等都是在把結(jié)構(gòu)化的內(nèi)容進(jìn)行非結(jié)構(gòu)化。因此,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)是緊密聯(lián)系的,也是可以相互轉(zhuǎn)化的。不太認(rèn)同劃分出第三類數(shù)據(jù)“半結(jié)構(gòu)化”,基本上這類數(shù)據(jù)就是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混合模式。

  鑒于政務(wù)信息資源的特點(diǎn),其數(shù)據(jù)是結(jié)構(gòu)化還是非結(jié)構(gòu)化往往取決于其原始來源和用途目的的綜合作用。如攝像頭采集的是圖形、圖像信息或者音視頻信息,在交通及治安執(zhí)法時(shí)需要識(shí)別人物(人臉)、車牌,就需要把非結(jié)構(gòu)化的圖像轉(zhuǎn)化為結(jié)構(gòu)化的信息。又如相關(guān)物聯(lián)網(wǎng)設(shè)備傳感器采集的溫度、濕度、pm2.5、甲醛等結(jié)構(gòu)化數(shù)據(jù),往往需要刻畫出圖文并茂的環(huán)境質(zhì)量報(bào)告。再如公共資源交易信息,即有非結(jié)構(gòu)化的標(biāo)書、投標(biāo)書、技術(shù)圖紙等數(shù)據(jù),也有結(jié)構(gòu)化的交易主體、交易過程及結(jié)果信息、評(píng)審專家信息等數(shù)據(jù)。結(jié)構(gòu)化和非結(jié)構(gòu)化混合是常態(tài),分別開來的時(shí)候往往是場(chǎng)景不同。

  從具體的數(shù)據(jù)庫管理平臺(tái)來講,傳統(tǒng)的數(shù)據(jù)庫如ORACLE、SQLSERVER、DB2、SYBASE、MYSQL、POSTSQL等以及達(dá)夢(mèng)、人大金倉、南大通用等國產(chǎn)數(shù)據(jù)庫多為關(guān)系型數(shù)據(jù)(SQL數(shù)據(jù)庫),適合存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)、適合事務(wù)處理(強(qiáng)調(diào)ACID特性:Atomicity、Consistency、Isolation和Durability)。與之對(duì)應(yīng)的是NOSQL(Not only Sql)數(shù)據(jù)庫,這個(gè)種類比較龐雜,廣義來講面向文檔的MongoDB、CouchDB等,圖形(Graph)數(shù)據(jù)庫Neo4j、AllegroGrap、GraphDB等,內(nèi)存數(shù)據(jù)庫memcached、Redis、ROMA等,面向列的Cassandra、HBase等(強(qiáng)調(diào)CAP特性:Consistency、Availability和Partitiontolerance)。從某種程度上來講,NOSQL是在分布式存儲(chǔ)的飛速發(fā)展和日益成熟而逐漸登上舞臺(tái)成為SQL數(shù)據(jù)的重要補(bǔ)充的。當(dāng)然,分布式存儲(chǔ)并非NOSQL數(shù)據(jù)的專屬,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫也同樣對(duì)分布式存儲(chǔ)有較好的支持。如果說分布式計(jì)算本質(zhì)是在充分共享利用關(guān)鍵計(jì)算資源和負(fù)載分擔(dān),那么對(duì)應(yīng)于分布式計(jì)算的分布式存儲(chǔ)就是依賴于分布式文件系統(tǒng),來提高存儲(chǔ)能力的可擴(kuò)展性。

  在搭建政務(wù)大數(shù)據(jù)的物理結(jié)構(gòu)時(shí),可以參考淘寶商城(采用阿里自主研發(fā)的Oceanbase和Tair),優(yōu)酷(采用開放的HBase、MongoDB和Redis)等典型方案??紤]到結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的綜合支持以及自主可控的指標(biāo),也可以采用國產(chǎn)數(shù)據(jù)庫組合方案(DM/GBase/KingbaseES/OpenBASE/神通數(shù)據(jù)庫等+SequoiaDB巨杉數(shù)據(jù)庫等)或者開放的存儲(chǔ)平臺(tái)(Mysql+HBase、MongoDB和Redis)以及基于全文檢索的ES(ElasticsSearch)/Apache Solr等。伴隨著云計(jì)算的快速發(fā)展,致力于DaaS的云數(shù)據(jù)庫也會(huì)成為搭建政務(wù)大數(shù)據(jù)存儲(chǔ)層的重要選擇(前提是安全、自主和可控三者的良好平衡)。

  政務(wù)大數(shù)據(jù)的計(jì)算層是圍繞著政務(wù)業(yè)務(wù)來展開的,政務(wù)大體上可以分為協(xié)同(G2G:政府對(duì)政府)、治理(G2S:政府對(duì)社會(huì))、服務(wù)(G2C:政府對(duì)公眾&G2B:政府對(duì)企業(yè))和決策(G2S:政府對(duì)社會(huì))四個(gè)部分。其中,政務(wù)大數(shù)據(jù)的治理和決策是政府對(duì)社會(huì)的治理和決策的重要組成部分;政務(wù)協(xié)同是政府對(duì)外提供政務(wù)服務(wù)的基礎(chǔ),政府各組成部門以及公務(wù)員之間通過工作協(xié)同使政務(wù)數(shù)據(jù)協(xié)同起來、聚合起來形成統(tǒng)一的政務(wù)信息資源庫。政務(wù)的治理過程既是政府對(duì)社會(huì)的監(jiān)督、管理基礎(chǔ)上的治理,也是對(duì)政務(wù)信息資源庫的數(shù)據(jù)治理。政務(wù)的服務(wù)與決策是基于政務(wù)信息資源庫的,也是以政務(wù)協(xié)同和治理為前提的。在提供服務(wù)和智慧決策的過程中,政務(wù)大數(shù)據(jù)的作用十分重要。因此,在政務(wù)活動(dòng)中產(chǎn)生的政務(wù)大數(shù)據(jù)的原始信息——政務(wù)信息資源庫,需要通過關(guān)聯(lián)分析、聚類分析、分類、預(yù)測(cè)、時(shí)序模式和偏差分析等數(shù)據(jù)挖掘技術(shù)以及信息組合、數(shù)學(xué)建模、相關(guān)性分析等數(shù)據(jù)計(jì)算。

  政務(wù)大數(shù)據(jù)的計(jì)算層就是要把分散在各個(gè)原始存儲(chǔ)單元中的數(shù)據(jù)進(jìn)行重新組合、運(yùn)算形成更全貌、綜合或者更深層次、全新的數(shù)據(jù)價(jià)值。從政務(wù)的特點(diǎn)來看,其實(shí)時(shí)/準(zhǔn)實(shí)時(shí)計(jì)算里既包含面向業(yè)務(wù)分析的OLAP(實(shí)時(shí)在線分析),也包含面向業(yè)務(wù)的OLTP(實(shí)時(shí)事務(wù)處理);非實(shí)時(shí)[離線]計(jì)算里,既包括面向業(yè)務(wù)分析的離線分析,也包括面向業(yè)務(wù)的離線處理。

  就政務(wù)大數(shù)據(jù)而言,其計(jì)算層主要是面向業(yè)務(wù)分析的實(shí)時(shí)/準(zhǔn)實(shí)時(shí)和離線計(jì)算。其中,政務(wù)大數(shù)據(jù)的離線計(jì)算仍是適用數(shù)據(jù)倉庫基本理論:如維度表和事實(shí)表的深度融合構(gòu)成維度模型;基于數(shù)據(jù)立方體實(shí)現(xiàn)五種基本操作(consolidation/roll-up、drill-down、slice、dice和pivot);融合了ROLAP[關(guān)系型]和MOLAP[多維]的HOLAP[混合型]分析;以O(shè)DS[Operational Data Store]為主要存儲(chǔ)模式等)。政務(wù)大數(shù)據(jù)的離線計(jì)算可以采用MapReduce分布式計(jì)算模型(如Spark集群計(jì)算環(huán)境)和Apache Hive基于Hadoop的數(shù)據(jù)倉庫工具;實(shí)時(shí)計(jì)算可以采用Apache Storm+Redis來實(shí)現(xiàn);日志處理方面可同時(shí)使用Flume(日志收集管道)和Kafka(分布式消息隊(duì)列),日志流向可以從log到Kafka,再從kafka到Strom上,再由Flume去讀取日志消息。

  政務(wù)大數(shù)據(jù)的服務(wù)層是基于計(jì)算層的支撐來實(shí)現(xiàn)的,按照計(jì)算層的政務(wù)協(xié)同、政務(wù)治理、政務(wù)服務(wù)和政務(wù)決策四類政務(wù)大數(shù)據(jù)群組,依次衍生出“協(xié)同流程、協(xié)同成效”,“治理體系、治理收益”,“服務(wù)提供、服務(wù)優(yōu)化”和“政務(wù)研判、政務(wù)預(yù)測(cè)”等八大政務(wù)業(yè)務(wù)主題域。

  其中,協(xié)同流程重點(diǎn)是提供政務(wù)活動(dòng)的業(yè)務(wù)流程、過程數(shù)據(jù)支持,協(xié)同成效是對(duì)政務(wù)活動(dòng)的價(jià)值評(píng)估、衡量,兩者共同構(gòu)成政務(wù)大數(shù)據(jù)在協(xié)同層面提供的數(shù)據(jù)基礎(chǔ)服務(wù)、增值服務(wù)和價(jià)值創(chuàng)新;治理體系是政務(wù)監(jiān)管評(píng)價(jià)、綜合治理在政務(wù)數(shù)據(jù)層面上進(jìn)行具體保障的系統(tǒng)性規(guī)劃以及工具集、作業(yè)集,治理收益是治理效果的具體量化、數(shù)據(jù)展現(xiàn);服務(wù)提供和服務(wù)優(yōu)化也是相輔相成的,前者是基礎(chǔ)、后者是用于政務(wù)服務(wù)的自我改進(jìn)、提升;政務(wù)研判是對(duì)政務(wù)活動(dòng)的研究、分析和判定,核心目標(biāo)是政務(wù)預(yù)測(cè),即服務(wù)于對(duì)政務(wù)活動(dòng)的未來預(yù)測(cè)、更好支撐未來的政務(wù)活動(dòng)。從技術(shù)落地上來講,政務(wù)大數(shù)據(jù)的服務(wù)層是需要可視化技術(shù)、機(jī)器智能技術(shù)進(jìn)行支撐的,前者用于展現(xiàn)展示和基礎(chǔ)互動(dòng),后者用于基于AI技術(shù)的虛擬“專家”智庫/團(tuán)隊(duì)。其中,可視化技術(shù)未來必然是要和VR(Virtual Reality)、AR(Augmented Reality)、MR(Mixed Reality)、HR(Holographic Reality)、ER(Expander Reality)等XR技術(shù)相融合,來提高人與數(shù)據(jù)的互動(dòng)。

  關(guān)于政務(wù)大數(shù)據(jù)在服務(wù)層的8大業(yè)務(wù)主題域(政務(wù)大數(shù)據(jù)的本質(zhì)就是政務(wù),所以也是政務(wù)的8大業(yè)務(wù)主題域),計(jì)劃在漫談?wù)?wù)大數(shù)據(jù)系統(tǒng)文章完稿后,再分別做專題討論,所以本文就不再進(jìn)一步深入闡述了。

  簡(jiǎn)言之,政務(wù)大數(shù)據(jù)的物理模型是服務(wù)于其概念模型,依據(jù)其邏輯模型進(jìn)行政務(wù)大數(shù)據(jù)的實(shí)際實(shí)施、落地的。政務(wù)大數(shù)據(jù)的范圍非常廣泛,本文僅對(duì)整體脈絡(luò)、通用業(yè)務(wù)、常用技術(shù)進(jìn)行了說明。鑒于作者本人的學(xué)識(shí)、經(jīng)驗(yàn)所限,相關(guān)內(nèi)容難免有偏頗甚至錯(cuò)誤之處,非常歡迎感興趣的同仁一起研討。同時(shí),也會(huì)持續(xù)在該領(lǐng)域進(jìn)行研究,并將心得、體會(huì)及時(shí)與大家分享。

責(zé)任編輯:qinpeng