什麼是 PB?抱歉,各位蘋科科的愛好者們,我說的不是 PowerBook;抱歉,各位化學愛好者們,我說的也不是鉛。這裡想說的是 PetaByte (也就是 1000 TB,或 1,000,000 GB)的紀元來臨時的挑戰。1 PB 的紀元?現在就想這個做啥?畢竟現在硬碟主流連 1TB 都還不到不是嗎?從資料儲存的角度來看,這樣說是沒錯,七月號的 Wired 雜誌上舉了幾個很生動的例子告訴我們,其實要用光 1000TB 的容量還蠻困難的:
  • 現在出去買一台玩家級的新電腦,容量大約是 1TB(或者,小薑庫存的*嗶*片也大約這個數)。
  • 每周上傳到社交網站 Facebook 上的照片總量是 20TB。
  • 哈柏太空望遠鏡從發射以來產生的總資料量大約是 120TB
  • 大型強子碰撞器每周產生的資料量大約是 330TB。
  • 美國國家氣候中心所以收集下來的資料總量約是 460TB。
  • Youtube 上所有的影片的總量約是 530TB(比想像中小?)。
  • Ancestry.com(一個家族追根資料庫)加上內附的 1790-2000 人口普查資料大約是 600 TB。
看吧!PB 的事還是留給後代子孫去煩惱好了,看起來要一次用掉 1PB 還早呢!是啦,要變出 1PB 的資料看起來是有困難,但從資料處理的角度來說,1PB 只是 Google 伺服器每 72 分鐘處理的資料量而已。雖然從資料儲存的角度來看,我們還處在 TB 時代,但已經有很多預兆告訴我們,下一個量級單位帶來的會是完全不同的一組新挑戰。小薑在後面想了五個可能: 

PB 時代的第一大挑戰是什麼?就是資料的過濾。就算人類已經有產生 PB 級資料量的能力,但事實是我們並沒有把這些資料全部有效地存取的技術。因此選擇哪些資料更有價值,就成為了很重要的課題。之前就有提過的大型強子碰撞器,事實上因為是在觀測為時非常短的現象,因此每秒大約要拍下十億張的照片,才能確保不漏掉什麼重要的事情。如果全部的資料都要保留的話,每秒鐘就必須儲存 10PB 左右的資料 -- 也就是說每秒鐘會塞滿 10,000 顆 1TB 容量的硬碟。這是一個靠現有技術絕對不可能辦到的事情,所以必須靠硬體和軟體的過濾,找出每秒大約 100 個值得關注的事。即使如此,一年仍將產生約 15PB 的資料,或 15,000 顆 1TB 的硬碟,藏在這些資料裡頭的,有黑洞、異次元、平行宇宙,還有兩三個諾貝爾獎吧?

第二個挑戰,是資料的分析。分析和過濾不一樣,過濾是試圖減少資料量,但分析卻是變出更多的資料來。一個例子是選舉結果的預測 -- 一個仔細想想並沒有意義,但無論候選人、選舉人還是媒體都樂此不疲的遊戲。美國在 2004 年時,候選人 Howard Dean 收集了 100GB 的資料來分析,當時被認為是一個很恐怖的大資料庫。今年的總統選舉,Catalist 公司收集了一個 15TB 的超大資料庫,詳細分析每個人的性別、婚姻、年齡、種族、收入等各種資料,並且從中獲得判斷一個人會投給共和黨還是民主黨的重要資訊。依照同樣的比例增加下去,下一次美國總統選舉時的資料量和分析結果肯定會達到數 PB 之譜,屆時對資料探勘、分析所需的運算資源的要求會非常可怕,或許非要用 Cloud Computing 的方式才能運算的地步。嘿嘿,或許到時候預測系統都比你自已清楚你會投給誰...

第三個挑戰,是資料的呈現。這是一個比較抽象的關念,舉個例子來說好了,目前的數位相機解析度都高達 10mp 或更多,但一般人用的螢幕就算是最常見的高檔螢幕解析度(1920x1200)事實上才 2.3mp 而已。那多的那些資料不就可惜了?Wikipedia 現在就有點這種感覺,很多很好的文章和內容因為不容易取得,很難發揮它應有的真正價值。

第四個挑戰,是資料的傳輸。之前在網路上看過一個很有趣的問題:將 1PB 的資料從美國西岸送到台灣,是用傳輸的快,還是用帆船把整個伺服器運過去快?一點簡單的數學告訴我們,要在合理的時間範圍內把資料傳完...就假設三個月好了。要在三個月內把 1PB 的資料傳完,傳輸送率要大約 1Gb/s 才行。這個數字不是特別的不可能(學術單位間常常有這麼大量資料來往),但絕對不是一般民眾能負擔得起的。以目前的技術來說,如果你要傳 1PB 的超高畫質*嗶*片給在美國的朋友的話,絕對是用海運的比較快...

最後,第五個挑戰,是資料的搜尋。拜 Google 大神所賜,這或許是我們最不須要要擔心的一環了。但 Google 的強大也僅限於公開的網路而已,自已電腦上的檔案要能分類清楚依然是很困難的一件事。Windows Vista 本來想要加入的 WinFS 檔案系統和隨之而來的關連式檔案架構似乎帶來了一線曙光,但最後我們還是被卡在樹狀結構的 NTFS 裡。當個人電腦資料量也到 1PB 的時候,嗯,真難想像到時候會是個怎麼樣的惡夢。

個人電腦容量跨越 1GB 門檻是多久以前?好像差不多是十年前左右,所以如果發展方向不變的話,再十年我們就會進入全面 PB 的時代。但在那之前,就們就已經有夠多要擔心的事了:在上面的五個問題當中,小薑最擔心的是資料的傳輸,因為傳輸頻寬的建立要時間和金錢的投入。要能夠順利地提升到下一個階段,現在就要開始做準備囉!

alex0126 發表在 痞客邦 PIXNET 留言(0) 人氣()