大數據／AI 速寫：探測引力波的幕後功臣

十分耕耘，一分收穫 — 這是科研裏不斷重複的情節。重大發現背後，牽涉到無數腦力、咖啡和汗水。今天介紹的，是成就了 2017 年諾貝爾物理學獎的一些發明和發現。

探測引力波需要極高的精度。得獎之一的 LIGO 能夠量度比原子直徑小一萬倍的長度變化(https://www.ligo.caltech.edu/page/facts)，才能感知引力波導致的儀器伸縮。由於訊號如此微弱，任何的擾動 — 例如附近有汽車駛過 — 都有可能污染了數據。換句話說，探測引力波跟大海撈針一樣！而爲了成事，需要大量事前準備和電腦運算。

（關於硬件避震，可見 LIGO 的官方網頁:https://www.ligo.caltech.edu/page/vibration-isolation）

首先，理論物理學家會利用廣義相對論，推算出各種引力波來源產生的訊號(http://uwm.edu/news/uwms-big-data-helps-find-gravitational-waves/)。例如，把來自兩個碰撞的黑洞產生的數據轉成聲音，就是短促的洄聲（whirl, 錄音見下）！有了樣板訊號後，研究人員和軟件就更容易認出「真。引力波」了。史上第一次的成功探測，就擁有以上好認的聲音特徵。沒錯，即使平凡如你我，也可以聽得到愛恩斯坦的天才預測。

而實際的數據分析，就需要調用到超級電腦。這些耗費幾百萬美金、需要特別冷卻的工具怎樣幫助我們探測引力波呢？

跟據 Ars Technica UK 報導(https://arstechnica.co.uk/information-technology/2015/10/big-data-an-it-buzzword-that-is-actually-producing-results/)，LIGO 設有十萬條數據收集頻道(https://zh.m.wikipedia.org/zh-hk/信道)，背後由二萬三千多顆 CPU 和一萬五千兆位元（15 PB）的儲藏空間支撐起，但只有一條是用來「聆聽」重力波的！其他九萬多條頻道均用於測量各種「噪音」：幾公里外駛過的車輛，天上飄過的雲等等；來源衆多，海量數據因而產生。了解「噪音」的型態後，就能嘗試移除它。

從 LIGO 官方網站可見(https://losc.ligo.org/events/GW150914/)，「真。引力波」檔案只佔大約一百萬位元（10^1 MB），連手提電話也可以承載。怎樣才能從海量數據中「提煉」出嬌小的引力波的形態呢？一千兆位元 1 PB，比現時單一硬碟容量大一千萬倍；如果每次稍微改變分析方法時都要重頭開始，那是多麼費時啊！

美國 Wisconsin-Milwaukee 大學的引力波研究人員。他們身後是 LIGO 調用的超級電腦 … 之一。（來源：University of Wisconsin-Milwaukee）

正因爲這樣，簡化數據分析就顯得重要。在這裏筆者為自己學校賣一下廣告 — 美國南加州大學開發了十五年的「天馬 Pegasus」開源軟件（https://pegasus.isi.edu），一直被 LIGO 團隊採用（https://pegasus.isi.edu/2016/02/23/pegasus-and-ligo/），最後成就了今年的諾貝爾獎！「天馬」的功能和優勝之處，在於能夠理解概念上的分析步驟、判斷該調動的軟件和數據，並自動生成 script file 和流程。如果數據改動了一小部分，這套系統亦懂得只重複相關的分析。總言之，對並非專長編程的科學家來說，「天馬」帶來了節省時間的福音。

篇幅有限，精彩發明不能盡錄；例如，不同國家合作者之間怎樣交換和備份數據，這又是一個故事。諾貝爾獎得獎者只有三位，而他們的願景和視野成就了引力波研究。恭喜他們的同時，讓我們也記得背後默默耕耘的數千位研究人員和博士生：他們不但支撐著研究計劃，還挑戰、推進了電腦科技的極限。未來的生活便利，也許由瞬間即逝的引力波而起。

將來的事，將來再想。

林榮茂部落格

Tuesday, November 20, 2018

大數據／AI 速寫：探測引力波的幕後功臣

大數據／AI 速寫：探測引力波的幕後功臣

No comments: