數據和計算相關問題

問：據瞭解，因為每個望遠鏡記錄太多數據，無法網路傳送，數據傳輸只能用實體搬運硬碟的方式來做。究竟是多大的數據量？

答：根據儀器設定、天氣、陣列內的位置和其他因素，5天的觀測過程可以為每個觀測站產生出大約1 Petabyte（PB）的原始數據。2017年4月的觀測共記錄了約3.5 PB的原始數據量。2018年4月的觀測又產生了約5.5 PB。未來的觀測預計每年有15 PB。（1PB = 1,024TB；1TB=1,024GB。）

問：各觀測站的原始數據在哪裡合併？

答：原始數據在美國麻州麻省理工學院海斯塔克天文臺和德國波昂馬克斯普朗克電波天文研究所進行處理（這道程序叫做「相關」）。後續的處理會在分佈全球各地的EHT合作成員機構裡進行。

問：數據如何處理? 為什麼構建影像需要很長時間？

答：資料處理有幾個階段需要大量的計算能力。雖然擁有更快的電腦以加快計算速度會有所幫助，但這並不是唯一的限制因素。從形式上講，必要的計算可以用現代的超級電腦在幾個月內完成，但這些數據對科學分析沒有用處。需要花費時間的是反覆運算、校準和删除損壞數據的增量改進，以及這些計算需用的軟體開發和更新。和其他尖端科學實驗一樣，這些相關的計算工具先前並沒有現成產品可用於處理EHT數據的，一切都是為EHT計畫而開發出來的。

首先，在全球EHT陣列中使用的一些望遠鏡本身就是一些較小的望遠鏡陣列，如ALMA和SMA，結合個別電波天線的集光區域，能使這些觀測站靈敏度提高。所以，在它們能與其他望遠鏡結合之前，需要先在一臺稱為本地相關器的超級電腦中對來自個別天線的訊號進行組合（“phased-up”）。這一計算過程可能需要好幾星期，然後將個別天線的原始數據量减少約1000倍。一個類似然費時更長且更為複雜的階段是在一個被稱為「VLBI相關器」的超級電腦中進行，它將所有EHT站台的數據組合起來，包括在小段的時間段和小段的頻率內去計算EHT陣列任何兩個觀測站之間對觀測目標的「相關性」（即兩點都偵測到時），同時加計考慮一些會影響干涉訊號的已知影響，例如觀測期間地球的自轉和運動，甚至是洲際大陸板塊的緩慢漂移。在4種不同的極化配置下，重複多次。完整的計算可能需要幾個月。當數據中有什麼問題是在處理作業後段才被發現，或如果軟體有重大更新，則必須重新完成這兩個階段。在相關階段之後，數據集可以縮減到幾GB，讓研究人員可以在合理的時間尺度上詳細檢查。