技術基礎
大數據是云計算、物聯網、移動互聯網、智慧城市等新技術、新模式發展的產物,它具有數據量大、類型復雜、內容變化快的特征,蘊含廣泛的應用價值和巨大的市場機會。
1、大數據采集與預處理技術
數據采集技術指從傳感器和其它待測設備等模擬和數字被測單元中自動采集非電量或者電量信號,送到上位機中進行分析、處理的過程。數據采集技術可分為3 大類:①系統日志采集方法。通過智能硬件、傳感器、社交網絡等數據載體的日常運維進行數據資源的采集。②網絡數據采集方法。指通過網絡爬蟲或網站公開API等方式從網站上獲取數據信息。該方法可以將非結構化數據從網頁中抽取出來,將其存儲為統一的本地數據文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,并支持文件之間的自動關聯。③其他數據采集方法。其他數據包括企業生產經營數據或學科研究數據等保密性要求較高的數據,可以通過與企業或研究機構合作,使用特定系統接口等相關方式采集數據。
大數據預處理技術,主要完成對已接收數據的辨析、抽取、清洗等操作。數據抽取:因獲取的數據可能具有多種結構和類型,數據抽取過程可以將這些復雜的數據轉化為單一的或者便于處理的類型,以達到快速分析處理的目的。數據清洗:對于大數據,并不全是有價值的,對于無價值的數據或干擾數據,需要通過過濾“去噪”進而提取出有效數據。
2、大數據存儲管理技術
數據的海量化和快增長特征是大數據對存儲技術提出的首要挑戰。這要求底層硬件架構和文件系統在性價比上要大大高于傳統技術,并能夠彈性擴展存儲容量。但以往網絡附著存儲系統(NAS)和存儲區域網絡(SAN)等體系,存儲和計算的物理設備分離,它們之間要通過網絡接口連接,這導致在進行數據密集型計算(Data Intensive Computing)時I/O 容易成為瓶頸。同時,傳統的單機文件系統(如NTFS)和網絡文件系統(如NFS)要求一個文件系統的數據必須存儲在一臺物理機器上,且不提供數據冗余性,可擴展性、容錯能力和并發讀寫能力難以滿足大數據需求。
谷歌文件系統(GFS)和Hadoop 的分布式文件系統HDFS奠定了大數據存儲技術的基礎。與傳統系統相比,GFS/HDFS 將計算和存儲節點在物理上結合在一起,從而避免在數據密集計算中易形成的I/O 吞吐量的制約,同時這類分布式存儲系統的文件系統也采用了分布式架構,能達到較高的并發訪問能力。
3、大數據分析挖掘技術
在人類全部數字化數據中,僅有非常小的一部分數值型數據得到了深入分析和挖掘(如回歸、分類、聚類),大型互聯網企業對網頁索引、社交數據等半結構化數據進行了淺層分析(如排序)。占總量近60%的語音、圖片、視頻等非結構化數據還難以進行有效的分析。
大數據分析技術的發展需要在兩個方面取得突破,一是對體量龐大的結構化和半結構化數據進行高效率的深度分析,挖掘隱性知識,如從自然語言構成的文本網頁中理解和識別語義、情感、意圖等;二是對非結構化數據進行分析,將海量復雜多源的語音、圖像和視頻數轉化為機器可識別的、具有明確語義的信息,進而從中提取有用的知識。
4、大數據可視化技術
數據可視化是一個處于不斷演變之中的概念,其邊界在不斷地擴大。主要指的是技術上較為高級的技術方法,而這些技術方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋。與立體建模之類的特殊技術方法相比,數據可視化所涵蓋的技術方法要廣泛得多。
數據可視化技術主要是利用計算機圖形學和圖像處理技術,將數據轉換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術等。它涉及到計算機圖形學、圖像處理、計算機視覺、計算機輔助設計等多個領域,成為研究數據表示、數據處理、決策分析等一系列問題的綜合技術。
5、大數據安全技術
大數據安全是個很寬泛的領域,可以包括:大數據系統的安全,數據本身的安全(加密)以及隱私保護,大數據應用帶來的安全和隱私問題,以及大數據技術應用于安全領域。
以 Hadoop 為代表的大數據系統早期主要處理公開領域的Web 數據,因此并沒有在安全上著力,但近年來有了長足的進展,逐步加入了用戶和服務鑒權(基于Kerberos),加入HDFS文件權限,對數據塊的權限控制,對任務的授權,對網絡上流動數據的加密以及DataNode內靜態數據的加密等。Intel 的Project Rhino 做了很多有益的嘗試。
數據安全首先是靜態數據的安全,主要是訪問權限控制;其次是動態數據的安全,主要是加密和動態審計能力。目前動態審計能力主要還是在企業內,表現為數據泄露防護技術,對重要數據進行分級、標識,實現跨平臺(端點、移動設備、網絡和存儲系統)的統一管理。
現在的主流大數據使用安全技術包括:基于同態加密、支持SQL 的加密數據庫,基于加密協議的多方安全計算,基于可信計算環境的多方安全計算,基于隱私保護的機器學習算法等。