概念特征
隨著“云計算”、“互聯網”、“物聯網”的快速發展,大數據也吸引了越來越多的關注,成為社會熱點之一。從2001 年“大數據”一詞在Gartner的研究報告出現至今,業內對“大數據”一詞的定義仍未統一。Gartner 給出了這樣的定義,“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所對“大數據”給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
業界通常用4個V(即Volume、Velocity、Variety、Value)來概括大數據的特征。
1、海量的數據規模(Volume)數據量大,存儲單位從GB到TB,直至PB、EB。隨著信息技術的高速發展,數據開始爆發性增長,社交網絡(微博、推特、臉書等)、移動網絡、各種智能終端等,都成為數據的來源。
2、快速的數據流轉(Velocity)大數據的交換和傳播是通過互聯網、云計算等方式實現的,遠比傳統媒介的信息交換和傳播速度快捷。大數據對處理數據的響應速度有非常嚴格的要求,要求快速響應,市場變化快,實時分析而非批量分析,數據輸入、處理與丟棄立刻見效。數據的增長速度和處理速度是大數據高速性的重要體現。
3、多樣的數據類型(Variety)不同的數據源,非結構化數據如視頻、圖片、音頻等,其特點是數據間沒有因果關系;以及半結構化數據如HTML文檔、郵件、網頁等,其特點是數據問的因果關系弱。這種類型的數據將會越來越多,需要進行清洗,整理,篩選等操作,變為結構數據。
4、價值密度低(Value)價值密度的高低與數據總量的大小成反比。由于數據采集的不及時,數據樣本不全面,數據可能不連續等等,數據可能會失真,但當數據量達到一定規模,可以通過更多的數據達到更真實全面的反饋。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。
大數據產業鏈包括一切與大數據的產生與集聚(數據源)、組織與管理(存儲)、分析與發現(技術)、交易、應用與衍生產業相關的所有活動。大數據產業鏈按照數據價值實現流程,包括數據源、大數據硬件支撐層、大數據技術層、大數據交易層、大數據應用層與大數據衍生層等六大層級,每一層都包含相應的IT 硬件設施、軟件技術與信息服務等。
1、數據源
數據源是大數據產業鏈的第一個環節,是大數據產業發展的基礎。目前數據源主要集中在政府管理部門、互聯網巨頭、移動通訊企業等手中,具體有政府數據源提供商、行業數據源提供商、企業數據源提供商、互聯網數據源提供商、物聯網數據源提供商、移動通訊數據源提供商、第三方數據服務企業等等。
2、大數據硬件支撐層
大數據硬件是指數據產生、采集、傳輸、存儲、計算等一系列與大數據產業鏈相關的硬件設備。包含傳感器、移動智能終端、各種有線/無線傳輸設備、存儲設備、服務器、網絡/安全設備等。國內目前缺少面向大數據的成熟系統,參與者多是正在試圖轉型的傳統IT 廠商,如華為、浪潮、聯想、曙光等公司。
3、大數據技術層
大數據技術層是指實現一切大數據采集與預處理、存儲管理、大數據分析挖掘、大數據安全和大數據可視化的技術手段,是大數據價值實現的重要條件。
4、大數據交易層
大數據交易層細分主要包括大數據資產評估、大數據指數、大數據定價、大數據交易、數據撮合、大數據基金、大數據信托、大數據期貨、大數據融資、大數據確權、大數據托管、大數據全生命周期管理、大數據交易標準等等。
5、大數據應用層
大數據的價值最終體現在大數據的應用上,大數據應用層是大數據價值最大化一個環節。整體而言,全球的大數據應用處于發展初期,中國大數據應用才剛剛起步。目前,大數據應用在各行各業的發展呈現“階梯式”格局:互聯網行業是大數據應用的領跑者,政府、金融、電信、交通、醫療等領域積極嘗試大數據,其中政府、金融會在近幾年呈現爆發式增長。
6、大數據衍生層
大數據衍生層是指基于大數據分析和應用而衍生出來的各種新業態。大數據產業鏈衍生層目前主要包含互聯網理財、互聯網基金、大數據金融、大數據咨詢、大數據標準、大數據知識庫、大數據雙創平臺等等。