【文章來源:騰訊科技】在11月6日召開的Techo開發者大會上,騰訊云副總裁、騰訊數據平臺部總經理蔣杰博士正式對外披露騰訊大數據平臺10年技術演進歷程。經過10年的積累,騰訊大數據平臺的算力資源池目前已有超過20萬臺的規模,每天實時數據計算量超過30萬億條,騰訊已經成為中國實時數據計算量最大的公司。并且,隨著資源管理平臺核心TKE和分布式數據庫TBase正式對外開源,騰訊正在成為大數據領域開源最全面的公司。
騰訊云副總裁、騰訊數據平臺部總經理蔣杰
作為全球最大的互聯網公司之一,騰訊的數據量在短短5、6年時間增長了幾千倍,目前每天產生的數據量超過幾十萬億條數據在產生。為了應對這種爆炸式增長,騰訊走出了一條技術引進+改造+自研的道路。經過長達十年的不斷升級和完善,騰訊大數據平臺已經經歷了四代演進。針對最新的大數據和人工智能技術發展趨勢,騰訊正在下一代計算平臺中,探索批流融合、ABC融合以及數據湖和聯邦學習等前沿技術。
十年四次升級 建立“大數據+AI”雙引擎技術架構
騰訊內部目前有超過100萬臺服務器,騰訊云聯合所有業務部門,利用業務空閑資源打造一套算力共享平臺,該算力彈性資源池有20萬的規模,大數據平臺每天有1500萬的分析任務、30萬億次的實時計算量,并且每天數據接入條數達35萬億條數據。此外,騰訊云的分布式機器學習平臺,能支撐1萬億維度的數據訓練。
能支撐如此大規模數據的接入和運算,是騰訊在大數據技術領域超過10年的積累,其核心的大數據平臺已經完成了三次迭代。從以Hadoop為核心的離線計算時代到以Spark、Storm、Flink為核心的實時計算時代,再到如今的機器學習和深度學習時代,騰訊從無到有研發了分布式的機器學習引擎Angel,以及一站式AI開發平臺智能鈦TI,用來解決數據訓練和算法的問題。目前,騰訊正在研究以批流融合、ABC融合、以及數據湖和聯邦學習為方向的下一代大數據平臺的研究,該平臺將具備混合部署、跨域數據共享和邊緣計算等能力。
據了解,為支撐海量業務發展,騰訊已經建立了“大數據+AI”的雙引擎技術架構,其中,最底層為分布式存儲層,存儲結構化及非結構化數據,第二層是資源調度層,做CPU、GPU和FPGA的管理,第三層是計算層、分析層、數據采集層,而頂層則是業務應用層。通過四層完整的技術架構,自下而上為騰訊的整個應用生態保駕護航,保障億萬用戶能安全順暢地享受到騰訊的優質服務。
從局部優化到自主研發 在實踐中不斷創新
從開始的技術引進、局部優化到如今的自主創新,騰訊的大數據技術在實踐中不斷完善、不斷創新。十年前,騰訊管理幾百個節點都很困難,調度性能差,規模上不去。為了有效解決計算能力和大規模集群問題,騰訊自研調度器,相對原生調度器性能提升150倍,大大提升了集群可擴展性。2016年,騰訊打破Sort Benchmark四項世界紀錄,標志著算力已經達到世界領先水平。
由于騰訊20萬臺彈性資源池的機器分布在多個數據中心,不同地區甚至是不同國家,為了降低數據使用壁壘,去年自研了漂移計算引擎SuperSQL,作為統一的數據分析入口,通過智能CBO優化器,將計算下推到分布在各地的異構數據源,數據分析性能提高很多倍,并且數據量越大優勢越明顯。
數據應用越來越深入,騰訊對數據挖掘的需求也越來越多。隨著模型的增大,最初用來做數據訓練的MR、Spark已經不能滿足上億的模型維度的需求。2015年初,騰訊開始自研高性能的分布式機器學習平臺Angel,采用PS架構,能支持10億維度。目前Angel發展到3.0版本,能支持萬億維度,也可以兼容Spark、PyTorch、TensorFlow等生態,進一步降低了使用門檻。此外,Angel今年還新增了對深度學習、圖計算等的支持。
騰訊正成為大數據領域開源最全面廠商
技術迭代不斷加速,企業建設大數據平臺和機器學習平臺,不僅成本高昂,而且缺乏相應的專業人才,面臨種種問題。
云時代,這些問題得到有效解決。目前,騰訊已經把網絡、存儲、數據庫等IaaS能力,大數據、機器學習等PaaS的能力,以及上層的圖像、語音、NLP、BI等SaaS能力,通過騰訊云對外開放。在大數據和AI兩個領域,騰訊推出了以TBDS和智能鈦TI為首的雙引擎。讓每個企業,不需要專業的大數據和AI團隊,也能便捷用上領先的大數據和AI的能力。
另外,騰訊也通過開源和廣大開發者共享技術成果。從2014開始,將第一代平臺的核心,騰訊版的Hive進行了開源,2017年,更是把第三代平臺的核心Angel開源。今年,騰訊加快了開源的腳步,在內部推開源協同的戰略推動下,騰訊所有的技術棧,后續會越來越開放。
2個月前,騰訊在ApacheCon 2019上,面向全球開發者正式宣布開源自身核心平臺——實時數據采集平臺TubeMQ,并捐獻給Apache社區。此次在Techo大會現場,再次重磅宣布正式開源資源管理平臺核心TKE和分布式數據庫TBase,隨著在大數據開源領域的開源逐步加速,騰訊正在成為中國大數據領域開源最全面的廠商。
“目前,已經有數百萬的開發者在騰訊云上構建應用,相信后面會有越來越多開發者加入,我們將和所有開發者一起,共建云上的應用生態”,蔣杰表示。
來源:騰訊科技
凡注明來源的文/圖等作品,均轉載自其它媒體,版權歸原作者所有。本網轉載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內容的真實性,本站只提供參考并不構成任何投資及應用建議。前海中泰咨詢倡導尊重與保護知識產權,如發現本站文章存在內容、版權或其他侵權問題,煩請聯系刪除。聯系方式:editor@qhztzx.com、0755-32919669,我們將及時溝通與處理。
————— 咨詢 · 服務 —————