丝袜久久亚洲国产毛片,老人AV综合,国产精品日韩av,超碰国产综合,综合av在线草,毛片久久久,精品蜜桃一区三区,99久久久,人妻99在线视频

程序設計:Facebook是如何存儲數(shù)十億照片的?

2015-02-03 行業(yè)研究

展示量: 3303

分享照片是Facebook上最流行的的功能之一。截至目前,用戶已經(jīng)上傳超過15億張照片,這使得Facebook成為最大的照片共享網(wǎng)站。對于每一個上傳的照片,F(xiàn)acebook都生成并存儲四個大小不同的圖像,從而轉化為共60億張照片,總容量超過1.5PB。目前以每周220萬新照片的速度增長,相當于每周要額外增加25TB存儲。在高峰期每秒需要傳輸55萬照片。這些數(shù)字對Facebook的照片存儲基礎設施的一個重大的挑戰(zhàn)。

  舊的 NFS 照片架構

老的照片系統(tǒng)架構分以下幾個層:

上傳層接收用戶上傳的照片并保存在 NFS 存儲層。

照片服務層接收 HTTP 請求并從 NFS 存儲層輸出照片。

NFS存儲層建立在商業(yè)存儲系統(tǒng)之上。

因為每張照片都以文件形式單獨存儲,這樣龐大的照片量導致非常龐大的元數(shù)據(jù)規(guī)模,超過了 NFS 存儲層的緩存上限,導致每次請求上傳都包含多次I/O操作。龐大的元數(shù)據(jù)成為整個照片架構的瓶頸。這就是為什么 Facebook 主要依賴 CDN 的原因。為了解決這些問題,他們做了兩項優(yōu)化:

因為每張照片都以文件形式單獨存儲,大量為目錄及文件在NFS 存儲層上產(chǎn)生了大量的元數(shù)據(jù), 這個規(guī)模的元數(shù)據(jù)量遠遠超過了超過了NFS 存儲層的緩存上限,導致每次招聘請求會上傳都包含多次I/O操作。龐大的元數(shù)據(jù)成為整個照片架構的瓶頸。這就是為什么 Facebook主要依賴 CDN 的原因。為了解決這些問題,他們做了兩項優(yōu)化:

Cachr: 一個緩存服務器,緩存 Facebook 的小尺寸用戶資料照片。

NFS文件句柄緩存:部署在照片輸出層,以降低 NFS 存儲層的元數(shù)據(jù)開銷。

  新的 Haystack 照片架構

新的照片架構將輸出層和存儲層合并為一個物理層,建立在一個基于HTTP 的照片服務器上,照片存儲在一個叫做haystack 的對象庫,以消除照片讀取操作中不必要的元數(shù)據(jù)開銷。新架構中,I/O 操作只針對真正的照片數(shù)據(jù)(而不是文件系統(tǒng)元數(shù)據(jù))。haystack 可以細分為以下幾個功能層:

HTTP 服務器

照片存儲

Haystack 對象存儲

文件系統(tǒng)

存儲空間

在下面的介紹中,我們會對于上述的每個功能層做詳細的講述。

  存儲空間

Haystack 部署在商業(yè)存儲刀片服務器上,典型配置為一個2U的服務器,包含:

兩個4核CPU

16GB – 32GB 內(nèi)存

硬件 RAID,含256-512M NVRAM 高速緩存

超過12個1TB SATA 硬盤

每個刀片服務器提供大約10TB的存儲能力,使用了硬件 RAID-6, RAID 6在保持低成本的基礎上實現(xiàn)了很好的性能和冗余。不佳的寫性能可以通過RAID控制器和NVRAM緩存回寫解決,寫由于讀取大多是隨機的,NVRAM緩存是完全用于寫入的。

  文件系統(tǒng)

Haystack 對象庫是建立在10TB容量的單一文件系統(tǒng)之上。

圖片讀取請求需要在讀取系統(tǒng)調用這些文件的位置偏移,但是為了執(zhí)行讀取操作,文件系統(tǒng)必須先找到實際物理卷上的數(shù)據(jù)。文件系統(tǒng)中的每個文件都被一個叫做inode結構標識。inode包含了一個磁盤上邏輯文件偏移和物理區(qū)塊偏移的映射。在使用的特殊類型文件系統(tǒng)時大文件塊映射可能相當大。

基于文件系統(tǒng)的區(qū)塊為給個邏輯區(qū)塊和大文件保存映射。這些信息通常不適合保存在inode的緩存中,而是存儲在在間接地址塊。所以在讀取文件的時候必須按照特定的流程。這里可以多個是間接地址塊,所以一個讀取會產(chǎn)生多個I/O取決于是否間接地址塊被緩存。

該系統(tǒng)只為連續(xù)范圍的區(qū)塊保持映射。一個連續(xù)的大文件的塊映射可以只由一個范圍的標識,這樣是適應inode的系統(tǒng)需求的。但是,如果該文件是一個被切割的不連續(xù)的塊的話,他的塊地圖可能非常的大。以上可以通過文件系統(tǒng)主動為大的物理文件分配大塊的空間來減少碎片。

目前使用的文件系統(tǒng)為XFS,一個很大程度提供高效的文件預分配系統(tǒng)。

  Haystack 對象存儲

Haystack 是一個簡單的日志結構(只能追加),存儲著其內(nèi)部數(shù)據(jù)對象的指針。一個 Haystack 包括兩個文件,包括指針和索引。下面的圖片將描述haystack存儲文件的布局:

程序設計:Facebook是如何存儲數(shù)十億照片的?,互聯(lián)網(wǎng)的一些事

haystack最前面的8K存儲是被超級塊占用。緊隨超級塊是針,每針組成的一個頭部,數(shù)據(jù)和尾部:

程序設計:Facebook是如何存儲數(shù)十億照片的?,互聯(lián)網(wǎng)的一些事

一個針被他的元組標識,其中的偏移量為其在haystack存儲的偏移。Haystack不在任何健值上做限制,即允許可以有重復鍵針。下圖顯示了索引文件的布局:

程序設計:Facebook是如何存儲數(shù)十億照片的?,互聯(lián)網(wǎng)的一些事

在haystack存儲文件中有每針相應的的索引記錄,并且包含針索引記錄的順序必須和haystack存儲文件相關的針的順序相匹配。按照規(guī)定索引文件的最低需求是找到一個特定的針在haystack存儲文件的元數(shù)據(jù)。載入和組織索引記錄到一個有效的查找數(shù)據(jù)結構是Haystack程序的責任。索引文件是不是很關鍵,因為如果需要它可以從haystack存儲文件重建。索引的主要職責是讓針元數(shù)據(jù)無需通過較大的Haystack存儲文件,快速加載到內(nèi)存中。原因是其可以讓索引編程原來存儲的1%。

  Haystack 寫操作

Haystack 寫操作同步將指針追加到 haystack 存儲文件,當指針積累到一定程度,就會生成索引寫到索引文件。由于索引文件是不是很關鍵,為了能有更快的性能所以采用異步的方式進行寫入。

為了降低硬件故障帶來的損失,索引文件還會定期寫到存儲空間中。在崩潰或突然斷電的情況下,將haystack恢復處理器存儲中任何殘缺的針和截斷haystack存儲中最后一個有效的針。接下來,它會把丟失的針的索引記錄 寫到haystack文件的最后。

Haystack不允許重寫現(xiàn)有的針偏移,如果一個針數(shù)據(jù)需要被重寫,那么新版本必須使用相同的元組。應用程序會自動分辨出這兩個相同的鍵,有最大偏移的便是最新的那一個。

  Haystack 讀操作

傳到 haystack 讀操作的參數(shù)包括指針的偏移量,健,備用鍵,Cookie 以及數(shù)據(jù)大小。Haystack為數(shù)據(jù)大小添加頭部和尾部的長度,然后根據(jù)數(shù)據(jù)尺寸從文件中讀取整個指針。讀取操作成功的關鍵就是作為參數(shù)傳遞的健,備用鍵,Cookie是否匹配,數(shù)據(jù)是否通過了校驗,并且針沒有被刪除掉。(見下文)

  Haystack 刪除操作

刪除操作比較簡單 – 只需要在 Haystack 存儲的指針字段中的“刪除”位標記一下即可。并且,相關的索引記錄不會做任何的修改。是最終的應用程序引用到的是一個刪除的針。像這樣一個讀取刪除針的操作將會返回一個相應的錯誤給應用程序??臻g對已刪除的針不做任何的回收,只有這樣,才能使 haystack 的空間非常的緊湊。(見下文)

  照片存儲服務器

照片存儲服務器負責接受 HTTP 請求,并轉換成相應的 Haystack 操作。為了盡量減少服務器檢索照片時的I/O操作,該服務器維護著全部 Haystack 中文件索引的緩存。服務器啟動時,系統(tǒng)就會將這些索引讀到緩存中。由于每個節(jié)點都有數(shù)百萬張照片,必須保證索引的容量不會超過服務器的物理內(nèi)存。在內(nèi)存中僅需要保存查找照片所需的少量元數(shù)據(jù)即可。

對于用戶上傳的圖片,系統(tǒng)分配一個64位的獨立ID,照片接著被縮放成4種不同尺寸,每種尺寸的圖像擁有相同的隨機 Cookie 和64位的密鑰,圖片尺寸描述(大,中,小,縮略圖)被存在代用key 中。接著上傳服務器通知照片存儲服務器將這些資料連同圖片存儲到 haystack 中。

  每張圖片的索引緩存包含以下數(shù)據(jù):

程序設計:Facebook是如何存儲數(shù)十億照片的?,互聯(lián)網(wǎng)的一些事

由于Google的開源 sparse hash data 結構對于每個條目只有2bit的開銷,所以Haystack使用它來保證內(nèi)存中的索引緩存盡可能小。

  照片存 儲的寫/修改操作

寫操作將照片數(shù)據(jù)寫到 Haystack 存儲并更新內(nèi)存中的索引。如果該索引記錄中包含了相同的鍵,那么這是一次對現(xiàn)有的照片進行修改的操作。并且只要修改索引記錄中的偏移來反應新圖像在haystack存儲文件的位置。照片存儲始終假定,如果有重復的圖像(圖像具有相同的鍵),有較大的偏移量的那個存儲是有效的。

  照片存儲的讀操作

傳遞給一個讀操作的參包括Haystack ID,照片的 Key, 尺寸以及 Cookie。服務器事先在緩存中按照照片的Key和所需文件的偏移進行查找。如果找到了它,并向haystack發(fā)出讀取詞圖像的請求。按照上面說的,haystack的刪除操作并不更新它的索引記錄,因此添加到內(nèi)存中的索引可以包含以前刪除的照片的內(nèi)容。當閱讀以前的刪除的照片失敗后,系統(tǒng)將在內(nèi)存的索引中色繪制詞圖片的偏移量為0.

  照片存儲的刪除操作

通知 Haystack 執(zhí)行刪除操作之后,內(nèi)存中的索引緩存會被更新,將偏移量設置為0,表示照片已被刪除。

  重新整理(壓縮)

重新整理(壓縮)是一種回收刪除和重復的針(針使用相同的Key)的在線操作。它會通過復制針跳過任何重復或刪除的條目創(chuàng)建一個新的 haystack。一旦此操作完成它就回去替換掉內(nèi)存中的文件和結構。

  HTTP 服務器

Http 框架使用的是簡單的基于開源的libevent庫的 evhttp 服務器。使用多線程,每個線程都可以單獨處理一個 HTTP 請求。因為我們的系統(tǒng)消耗大多是I/O操作,HTTP服務器的性能并不很重要。

  結束語

Haystack 是一個基于 HTTP 的對象存儲,包含指向實體數(shù)據(jù)的指針,該架構消除了文件系統(tǒng)元數(shù)據(jù)的開銷,并實現(xiàn)將全部索引直接存儲到緩存,以最小的 I/O 操作實現(xiàn)對照片的存儲和讀取。

本文作者為Facebook的工程師Peter Vajgel, Doug Beaver 和 Jason Sobel, 由標點符進行翻譯。

原文鏈接(E文):http://www.facebook.com/note.php?note_id=76191543919&ref=mf

知名風險投資公司
紅杉資本|瑞華投資|同創(chuàng)偉業(yè)|達晨創(chuàng)投|深創(chuàng)投|IDG|創(chuàng)東方|君聯(lián)資本|中科招商|經(jīng)緯中國|啟明創(chuàng)投|松禾資本|英特爾投資|優(yōu)勢資本|東方富海|天堂硅谷|九鼎投資|晨興創(chuàng)投|江蘇高科投|北極光創(chuàng)投|德同資本|凱雷投資|中國風投|天圖資本|真格基金|DCM|IFC|凱鵬華盈|高盛投資|啟迪創(chuàng)投|戈壁|荷多投資|紀源資本|鼎暉投資|華平投資|金沙江投資|海納亞洲|永宣創(chuàng)投|險峰華興創(chuàng)投|中投|海通開元|中信資本|力鼎資本|平安創(chuàng)新資本|天使灣創(chuàng)投|和君資本|祥峰集團|招商湘江投資|元禾控股|力合創(chuàng)投|復星創(chuàng)富|陜西高投|光速創(chuàng)投|富達亞洲|成為資本|中信產(chǎn)業(yè)基金|GIC|基石資本|金茂資本|富坤創(chuàng)投|盈富泰克|重慶科投|鼎暉創(chuàng)投|北工投資|海富投資|招商局資本|新天域資本|中路集團|摩根士丹利|青云創(chuàng)投|建銀國際|德豐杰|弘毅投資|CVC|藍馳創(chuàng)投|寬帶資本|秉鴻資本|金石投資|天創(chuàng)資本|證大投資|中經(jīng)合|信中利|蘭馨亞洲|淡馬錫|浙商創(chuàng)投|華睿投資|景林資產(chǎn)|摯信資本|高特佳|清科創(chuàng)投|華登國際|山東高新投|集富亞洲|騰訊|無錫創(chuàng)投|創(chuàng)新工場|智基創(chuàng)投|策源創(chuàng)投|軟銀中國|
Copyright©創(chuàng)業(yè)聯(lián)合網(wǎng) ALL Rights Reserved
滬ICP備2024089025號-2
商務與客服聯(lián)系微信
无为县| 凤冈县| 曲周县| 莆田市| 奉化市| 奉化市| 石柱| 西吉县| 海门市| 中江县| 江山市| 米易县| 新闻| 铜山县| 新源县| 明溪县| 湘阴县| 扶余县| 逊克县| 宁津县| 石屏县| 从江县| 岗巴县| 惠安县| 侯马市| 花莲县| 鄂州市| 云梦县| 金华市| 吕梁市| 崇左市| 太仓市| 渭源县| 兰西县| 凤山县| 鄂托克前旗| 鄢陵县| 定兴县| 清流县| 易门县| 黄大仙区|