來源:博觀科技日期:2022-03-08 11:20:26
在過去十年中,NAND閃存已經(jīng)成為存儲和訪問各種數(shù)據(jù)的最受歡迎的設(shè)備,從視頻記錄和流媒體、個人存儲、操作系統(tǒng)的提供到數(shù)據(jù)記錄、應(yīng)用加速等等。創(chuàng)新速度在速度和存儲容量方面都有多因素的提高。
唯一減少的方面,至少從總體上說,是可靠性。由于新產(chǎn)品的推出周期非常短,只有幾個月的時間,不再有時間去充分測試和驗證復(fù)雜的功能。因此,不成熟的產(chǎn)品進入市場,后來依靠在現(xiàn)場的多次固件更新來消除客戶測試所發(fā)現(xiàn)的問題。
在大多數(shù)情況下,這種情況沒有公布,NAND存儲的問題也沒有在受影響的公司之外分享,除非損害影響到更多的公眾。例如,特斯拉最近不得不召回13.4萬輛汽車,原因是一個尺寸不足的嵌入式多媒體卡(eMMC)的早期故障。
關(guān)于固態(tài)盤(SSD)的故障,我們需要考慮兩個主要方面:硬件和固件。
硬件定義了原始比特錯誤率(在通過糾錯單元之前有比特錯誤的塊讀數(shù)的百分比),單元的數(shù)據(jù)保留,以及支持的溫度范圍。固件需要管理閃存的平等磨損,執(zhí)行位錯誤校正,并減輕溫度數(shù)據(jù)影響和電源損耗問題。
下面是涉及到NAND閃存問題時的五大錯誤原因。
1. 錯誤的NAND質(zhì)量。
NAND閃存是一種商品,需要保持每千兆字節(jié)的低成本。許多發(fā)展(3D NAND,QLC)主要是由這個目標(biāo)驅(qū)動的。對于手機和個人電腦/筆記本電腦的使用,消費者質(zhì)量的NAND已經(jīng)足夠。但對于要求更高的應(yīng)用,如企業(yè)存儲或工業(yè)/網(wǎng)絡(luò)和通信應(yīng)用,就不是這樣了。
標(biāo)準(zhǔn)化聯(lián)盟JEDEC已經(jīng)定義了兩個主要的使用案例及其各自的質(zhì)量要求。
客戶端用例。PC用戶類型的工作負(fù)荷,8小時/天,40°C,不可更正的錯誤率(UBER)< 10-15
企業(yè)用例。數(shù)據(jù)庫類型的工作負(fù)荷,24小時/天,55°C,不可更正的錯誤率(UBER)< 10-16
10-15和10-16似乎都是極低的數(shù)字,但這一差異意味著客戶機硬盤的故障頻率比企業(yè)級硬盤高10倍。隨著現(xiàn)代固態(tài)硬盤的高吞吐量,固態(tài)硬盤的故障概率不再是可以忽略不計的。
今天的NAND閃存的原始比特錯誤率,低級別的在10-2之間,高級別的技術(shù)在10-3之間。各種水平的糾錯將UBER率降低到要求的UBER水平。閃存質(zhì)量等級和錯誤處理水平對銷售價格有直接影響。作為一個一般規(guī)則。不要把廉價的商業(yè)級SSD放在需要低錯誤率的應(yīng)用中。
2. 錯誤的NAND設(shè)計。
三維NAND單元是一個由許多層組成的高度復(fù)雜的堆疊。目前,一些設(shè)備有超過140層。制造時需要在數(shù)百個多晶硅和氧化硅沉積物的夾層中蝕刻非常薄但又非常深的孔。由于蝕刻的性質(zhì),孔的下半部分比上半部分窄得多,導(dǎo)致晶體管的電氣性能不同。這使得可靠地讀取不同的單元非常具有挑戰(zhàn)性。再加上讀取和寫入之間的溫度變化,又增加了一個變化的維度。
并非每個NAND設(shè)計都能在寫入和讀取之間的溫度變化時提供足夠好的數(shù)據(jù)。只要固態(tài)硬盤產(chǎn)品駐扎在熱控制良好的系統(tǒng)中--例如,在個人電腦、筆記本電腦、服務(wù)器或手持設(shè)備中,溫度變化太小,不會造成問題。
對于工業(yè)或網(wǎng)通應(yīng)用,對NAND的要求大大增加,NAND的設(shè)計和支持固件都需要支持廣泛的溫度波動。一旦系統(tǒng)必須在溫度波動的條件下運行,閃存產(chǎn)品的錯誤選擇會導(dǎo)致多種問題。
3. 錯誤的機械穩(wěn)定性。
聽說過熱-機械應(yīng)力嗎?當(dāng)溫度波動影響到結(jié)合了不同熱膨脹系數(shù)的元素的結(jié)構(gòu)時,就會發(fā)生這種情況,也就是說,在相同的溫度變化下,一些部件比其他部件延伸得更多。
一塊固態(tài)硬盤由一塊PCB板組成,上面有焊接好的閃存包、一個控制器、連接器和小型被動元件。所有這些都隨著溫度的變化而表現(xiàn)得不同。由于封裝是焊接在PCB上的,不同的膨脹導(dǎo)致機械應(yīng)力,最終導(dǎo)致互連線斷裂(圖1和2)。
這種損害是在數(shù)百到數(shù)千次的溫度循環(huán)后發(fā)生的,甚至可能需要數(shù)年時間。但當(dāng)涉及到長期在現(xiàn)場的工業(yè)系統(tǒng)時,它就非常重要了。
4. 電源故障穩(wěn)健性。
對于一個總是優(yōu)雅地關(guān)閉的筆記本電腦來說,電源故障魯棒性不是問題。對于一個簡單地拔掉插頭的醫(yī)療設(shè)備,或者在電源不穩(wěn)定的環(huán)境中的NetCom路由器,突然斷電一定不會導(dǎo)致系統(tǒng)損壞。
突然斷電可能在任何時候發(fā)生--在外部寫入SSD的過程中,在內(nèi)部垃圾收集過程中,在固件更新過程中,甚至在從以前的斷電恢復(fù)過程中。如果固件不能正確管理電源損失,將影響數(shù)據(jù)損失的嚴(yán)重性。最好的情況是,它只是最后寫入的數(shù)據(jù)(實時數(shù)據(jù));最壞的情況是,固件被損壞,固態(tài)硬盤不再工作。在許多關(guān)鍵任務(wù)的應(yīng)用中,丟失哪怕是幾個比特的數(shù)據(jù)都是不可接受的。
Swissbit對市場上常見的SSD進行了測試,在斷電測試中看到了各種類型的故障發(fā)生。
5. 錯誤的固件架構(gòu)。
速度很重要,至少對于消費類硬盤而言。此外,速度測試通常是在硬盤是新的、空的、剛格式化的時候進行的。通常不考慮的是,當(dāng)硬盤100%裝滿,多次被覆蓋,或者可能在高溫下運行時,還有多少性能。許多現(xiàn)有的固件架構(gòu)關(guān)注的是性能規(guī)格,而不是在整個操作范圍內(nèi)的最高耐久性或保留或持續(xù)性能。
選擇一個沒有為長期使用而優(yōu)化的固態(tài)硬盤,一旦硬盤的早期壽命過去,可能會導(dǎo)致不好的意外(圖3)。
結(jié)論
選擇正確的SSD或NAND閃存產(chǎn)品取決于許多標(biāo)準(zhǔn)。特別是當(dāng)涉及到工業(yè)用途或苛刻的應(yīng)用時,決策過程中應(yīng)包括以下幾個方面。選擇合適的組件、機械結(jié)構(gòu)、固件架構(gòu)和電源故障的穩(wěn)健性。這樣做是找到一個可靠的數(shù)據(jù)存儲設(shè)備的最好方法,可以在很長的使用壽命內(nèi)存儲和檢索數(shù)據(jù)。
鄭州博觀電子科技有限公司是一家提供科技類物聯(lián)網(wǎng)開發(fā)軟硬件定制化方案服務(wù)商、也是中原地區(qū)領(lǐng)先的物聯(lián)網(wǎng)終端設(shè)備解決方案提供商。致力共享換電柜、智能充電樁、共享洗車機、物聯(lián)網(wǎng)軟硬件等服務(wù)平臺的方案開發(fā)與運維。總部位于河南省鄭州市高新區(qū),已取得國家高新技術(shù)企業(yè)認(rèn)證證書。經(jīng)過10多年的業(yè)務(wù)開拓,公司已經(jīng)形成了以中原地區(qū)為中心、業(yè)務(wù)遍布全國的經(jīng)營格局。
* 為了您的權(quán)益,您的一切信息將被嚴(yán)格保密