千億量級(jí)的搜索背后,浪潮軟件定義存儲(chǔ)如何將小文件讀寫性能提升30%
- 作者:今日軌道交通網(wǎng)
- 來源:浪潮軟件
- 發(fā)布時(shí)間:2018.12.25
海量小文件讀寫性能提升30%,浪潮怎么做到的?
關(guān)鍵詞:浪潮軟件定義存儲(chǔ)、海量小文件讀寫、浪潮AS13000 導(dǎo)語:打開購物軟件,搜索早已經(jīng)“種草”的商品并下單,這是我們?cè)僖擦?xí)慣不過的生活方式。但在輕松愉快的購物旅程的背后,海量小文件的讀寫,成為存儲(chǔ)系統(tǒng)“難題”。為了幫助電商、交通、廣電等行業(yè)化解海量小文件的存儲(chǔ)壓力,浪潮AS13000 進(jìn)行了廣泛創(chuàng)新,能夠提升30%以上的小文件讀寫性能,將業(yè)務(wù)處理速度增加數(shù)倍。面對(duì)千億量級(jí)的小文件,存儲(chǔ)系統(tǒng)壓力山大 所謂小文件,指的是存儲(chǔ)占用空間相對(duì)較小的文件,一般來說低于64MB的文件就可以被認(rèn)定為小文件,而大量的小文件大小則在幾KB到幾十KB之間。在云計(jì)算、大數(shù)據(jù)業(yè)務(wù)中,文本、圖片、音樂等是典型的小文件應(yīng)用場(chǎng)景。 隨著數(shù)字化創(chuàng)新的加速,組織內(nèi)部的數(shù)據(jù)呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)的趨勢(shì),特別是小文件更是隨著業(yè)務(wù)增長(zhǎng)到一個(gè)巨大的量級(jí)。與大文件的存儲(chǔ)不同的是,大量磁盤在小文件存儲(chǔ)場(chǎng)景中的性能極低,單塊企業(yè)級(jí)SATA磁盤如果全部存儲(chǔ)4KB左右的小文件,帶寬只有520KB/s,遠(yuǎn)遠(yuǎn)小于應(yīng)有的120MB/s的帶寬標(biāo)準(zhǔn)值,很容易因?yàn)榇鎯?chǔ)系統(tǒng)的性能不足造成上層應(yīng)用“卡頓”。把磁盤全部換成固態(tài)盤固然可以解決問題,但是,固態(tài)盤的價(jià)格數(shù)倍于SATA磁盤,對(duì)于很多用戶來說,全面的應(yīng)用固態(tài)盤在成本上仍然不現(xiàn)實(shí)。
百億~萬億量級(jí)的小文件對(duì)存儲(chǔ)性能提出挑戰(zhàn)
而且,每個(gè)應(yīng)用場(chǎng)景對(duì)于存儲(chǔ)系統(tǒng)的性能往往有著不同的要求。例如,某領(lǐng)先電商平臺(tái)已經(jīng)存儲(chǔ)了數(shù)量以百億計(jì)算的圖片文件,這些圖片平均大小在15KB左右,用戶對(duì)于這些圖片文件的讀取完全是隨機(jī)讀取,一旦大量用戶同時(shí)在線訪問網(wǎng)址或者搜索商品,往往就會(huì)給存儲(chǔ)系統(tǒng)的隨機(jī)讀寫能力帶來巨大的挑戰(zhàn);在交警系統(tǒng)中,路口的抓拍攝像頭會(huì)將違章圖片傳送至區(qū)中心的計(jì)算服務(wù)器,不僅攝像頭數(shù)量多,而且每臺(tái)攝像頭每天都可能生成數(shù)千乃至上萬張照片,某市每天相關(guān)圖片寫入甚至超過一億張,要降低存儲(chǔ)系統(tǒng)的壓力,就需要及時(shí)刪除正常的圖片,這對(duì)存儲(chǔ)系統(tǒng)的寫入、刪除能力要求很高。 浪潮存儲(chǔ)產(chǎn)品經(jīng)理杜劍表示:“海量小文件的讀寫需求在近幾年來快速增長(zhǎng),特別是在人工智能、高性能計(jì)算等應(yīng)用場(chǎng)景中,往往需要對(duì)于海量的數(shù)據(jù)集進(jìn)行隨機(jī)讀寫操作,存儲(chǔ)系統(tǒng)的性能不足將會(huì)帶來高時(shí)延,從而直接影響應(yīng)用的效果。為了解決海量小文件的讀寫問題,浪潮除了嘗試在硬件上進(jìn)行重構(gòu)之外,還致力于通過軟件層面的技術(shù)創(chuàng)新來進(jìn)行改善?!?/span>
解決海量小文件的讀寫難題 浪潮有三板斧
作為了面向云計(jì)算、大數(shù)據(jù)存儲(chǔ)的高性能集群架構(gòu)產(chǎn)品,浪潮軟件定義存儲(chǔ) AS13000 可以幫助用戶搭建存儲(chǔ)資源池,為上端應(yīng)用提供其所需的存儲(chǔ)資源。為了提升海量小文件的讀寫性能,浪潮 AS13000 從云數(shù)據(jù)集群、小文件聚合、文件分層三個(gè)層面進(jìn)行了創(chuàng)新。
浪潮軟件定義存儲(chǔ)AS13000
首先,云數(shù)據(jù)集群技術(shù)創(chuàng)新。AS13000 可以根據(jù)系統(tǒng)規(guī)模統(tǒng)一規(guī)劃,保證元數(shù)據(jù)服務(wù)散布于每個(gè)存儲(chǔ)節(jié)點(diǎn),使系統(tǒng)能夠通過多個(gè)元數(shù)據(jù)服務(wù)器提供元數(shù)據(jù)服務(wù),實(shí)現(xiàn)元數(shù)據(jù)并發(fā)操作,有效的提升處理海量小文件的能力。而且,AS13000 還提供了目錄負(fù)載平衡特性。將目錄自動(dòng)分配到系統(tǒng)中的所有元數(shù)據(jù)服務(wù),減少相關(guān)元數(shù)據(jù)的通信壓力。 其次,小文件聚合技術(shù)創(chuàng)新。在前面我們也提到過,磁盤讀寫大文件的速度往往要顯著高于小文件。為了利用這一特性,AS13000 中的小文件并非直接落盤,而是合并為64MB之后再進(jìn)行落盤操作,從而有效降低小文件寫入磁盤次數(shù)、減輕寫數(shù)據(jù)壓力,同時(shí)還提高讀取命中率并縮短讀 I/O 路徑。 最后,文件分級(jí)計(jì)算創(chuàng)新。AS13000 會(huì)根據(jù)集群系統(tǒng)中文件的大小、類型、存放時(shí)間等元數(shù)據(jù)屬性,將滿足用戶所設(shè)置分級(jí)策略的文件分別遷移到不同性能存儲(chǔ)介質(zhì)上的存儲(chǔ)池中。其中,在線存儲(chǔ)使用高速存儲(chǔ)介質(zhì),應(yīng)用于文件讀寫頻繁且對(duì)性能要求較高的場(chǎng)景,近線存儲(chǔ)使用低價(jià)、低速的存儲(chǔ)介質(zhì),應(yīng)用于對(duì)文件讀寫帶寬和存儲(chǔ)容量要求較高的高帶寬、大容量場(chǎng)景,這樣有利于實(shí)現(xiàn)速度與成本的平衡。 經(jīng)過驗(yàn)證,在應(yīng)用了這些技術(shù)創(chuàng)新之后,浪潮 AS13000 在海量小文件的讀寫性能方面有了顯著的提升,理論測(cè)試中的提升幅度超過30%。
浪潮軟件定義存儲(chǔ)服務(wù)交通、廣電、通信等行業(yè)用戶
電商、交通卡口等場(chǎng)景 提升數(shù)倍處理效率 在電商、交通、機(jī)器學(xué)習(xí)、高性能計(jì)算等實(shí)際客戶的存儲(chǔ)系統(tǒng)應(yīng)用實(shí)踐中,浪潮 AS13000 顯著的提升了海量小文件的讀寫性能。在某工業(yè)技術(shù)研究院的高性能計(jì)算應(yīng)用中,浪潮 AS13000 通過小文件讀寫性能的優(yōu)化將作業(yè)耗時(shí)降低了20%;在某警務(wù)云的搭建實(shí)踐中,浪潮 AS13000 在應(yīng)對(duì)8KB-64KB 小文件讀寫時(shí),整體集群 IOPS 高達(dá)110000,比預(yù)期值提升了30% 左右。 海量小文件讀寫速度的提升對(duì)于上層應(yīng)用效率的提升可謂“立竿見影”。例如,在某市骨架路網(wǎng)的視頻監(jiān)測(cè)中,浪潮 軟件定義存儲(chǔ)AS13000 將圖片檢索用時(shí)從十幾秒降低到3秒以下,交通監(jiān)控圖片取證實(shí)現(xiàn)“秒開秒解”,交通執(zhí)法取證的速度更是提升幾倍。除了極高的性能表現(xiàn)之外,浪潮AS13000還具備極高的可用性、安全性,是搭建面向云計(jì)算、大數(shù)據(jù)存儲(chǔ)的高性能集群架構(gòu)的優(yōu)先選擇。