维拉·C·鲁宾天文台的数据革命:天文学的新篇章

维拉·C·鲁宾天文台近期发布了其令人惊叹的首次图像,然而其将要收集的数据量将远超以往任何望远镜。

因此,天文学家们开始转向云计算,并借助七个数据代理和一个数据管家来应对这些海量数据。

一旦完全运转,鲁宾天文台(由美国国家科学基金会和能源部资助)将每晚收集20 TB的数据。

这些数据的分析将会向天文学家发出1000万个警报,这些警报将由被称为“代理”的系统管理,以便将海量的告警信息过滤为更易于处理的形式。

“就数据量而言,我们比以前的望远镜大一个数量级。”爱丁堡大学计算机科学家乔治·贝凯特在接受《Space.com》采访时表示,他是鲁宾的英国数据设施协调员。

在接下来的十年里,鲁宾的遗产空间与时间调查将收集大约500 PB的数据,相当于50万张4K-UHD蓝光光盘。

这些数据将在智利的鲁宾天文台和加利福尼亚的SLAC国家加速器实验室之间通过专用网络链接传输,以确保数据的快速到达。

SLAC将负责35%的数据处理,IN2P3将承担40%,而英国则负责25%。此外,鲁宾天文台在智利设有一个适度的数据中心,以支持智利天文学家的需求。

多个数据中心不仅提供了冗余,确保数据不会在事故中丢失,还可以互相支持,以防某个数据中心在处理上落后。

对于天文学家而言,重要的是迅速获得有价值的数据,以便在有趣的警报出现时尽快跟进。

“我面临的最大挑战是,天文学家们不断要求他们的数据!”贝凯特玩笑道。

这庞大的数据量将成为天文学家们不仅在当下,而且在未来几十年内珍贵的资源。

那么,天文学家将如何在这些数据中进行搜索呢?

贝凯特将这一过程与在智能手机上查找照片进行了比较。“你的手机可能装满了过去五年或十年拍摄的照片,寻找两年前的那张照片通常需要逐一翻阅,过程琐碎繁琐。”他解释道。

“现在想象一下,你的手机里有150万张照片,每张照片的像素宽度为10,000,你根本没有机会逐一查看它们。”

为了有效地搜索鲁宾的数据集,贝凯特提出,必须提供所有这些图像的可访问描述,以便天文学家能够相对轻松地找到他们所需的信息。

这也是鲁宾数据处理与以前望远镜的不同之处,以前的望远镜使天文学家能够相对简单地下载所需的数据,而鲁宾的数据集过于庞大,无法下载,因此所有数据都存储在“云”中。

鲁宾的数据集由一个名为数据管家的服务管理。

它记录所有元数据,即关于数据的数据,包括时间、日期、天空坐标、图像内容等。

“天文学家可以提出几乎任何查询,使用天文术语谈论天体、时间尺度或坐标系统,数据管家会获取他们所需的信息。”贝凯特说道。

这适用于长期研究,但还有一些短暂现象,即那些引起警报的移动物体,促使天文学家在这些现象消失之前迅速进行跟进。

这些现象包括超新星、产生引力波的双中子星合并、nova、耀变星、食双星、磁星爆发、小行星和彗星,甚至可能还有之前未见过的新类型天体。

鲁宾预计每天会产出1000万个警报,并在探测到后两分钟内发布每个警报。

即便有数据管家的帮助,天文学家又如何筛选这些警报以找到最重要的跟进对象呢?

七个由不同国家科学家运营的代理将处理全部1000万个警报(还有两个具有特定科学目标的代理,只处理部分警报)。

例如,一个名为ALeRCE的智利代理,代表“快速分类事件的自动学习”,而另一个名为ANTARES,代表“亚利桑那–NOIRLab事件分析和响应系统”。

英国代理称为Lasair,专注于短暂现象的监测。

将这些代理视为一组过滤器,天文学家可以选择它们以帮助筛选警报,挑选出他们最感兴趣的内容。

一些代理使用机器学习和人工智能算法,但也有较为传统的建模方法,以快速处理数据。

“天文学家可以注册一个代理,描述他们感兴趣的内容,希望通过适当的描述将每日1000万个警报过滤到也许只有两到三个。”贝凯特解说道。

事实上,其余的999998个警报并非没有价值,或许只是这些警报并不符合天文学家的兴趣,或并不具备足够的唯一性以至于需要专门的跟进。

鲁宾将每晚对乔治·贝凯特所描述的南半球四分之一的天空进行调查,目睹一切,不放过任何一个细节。

有人可能会认为,这次调查是终极调查,将不会再有更加庞大的数据调查。然而,贝凯特同样参与了平方千米阵列(SKA)数据管理团队,这是一组在南非和澳大利亚的大型射电望远镜。

鲁宾的数据集制作的技术和经验教训,将用于使SKA的数据处理更加流畅。

“SKA的规模将会超越鲁宾,在数据量上再以一个数量级大的存在。”贝凯特表示。

总有更大的鱼在水中游动!

图片源于:space