行星数据太过庞大,如何筛选数据?
由于数据太过庞大,为提高效率,天文学家设定了一个检测截止点——只有信噪比超过固定阈值的数据才会被保留下来。
数据统计,截止到目前,通过该方法被手动检测的信号超30000个,其中约2500个被验证为系外行星。
到这里,或许你会认为,人类探测系外行星的僵局已经被打破。那是因为你忽略了“检测截止点”这一关键点。因为我们不能保证,在这个截止点之外,就一定没有行星。
但如果不设置截止点,我们所有检测的数据量就极为庞大。据天文学家估计,仅银河系,就可能包含多达4000亿颗系外行星。截至2016年2月,已经被认定的系外行星总数为2085颗,这些行星分属1331个行星系。
可想而知,如果想要靠人力找到所有行星,是根本不可能的。
突破“检测截止点”限制,人工智能成救命稻草
谷歌表示,正是因为开普勒-90i的相关信号比其他行星要弱很多,所以多年来,人类一直没能通过传统的行星识别手段找到它。
因此,为提高检测效率及降低错误率,NASA联手谷歌,将普勒望远镜近四年来的采集约20万颗星球的数据投入到神经网络中,用以检测低信噪比信号及行星,让其成为“猎星代码”。
据悉,“猎星代码”是由Google Brain(Google内部深度学习人工智能研究项目)和UT Austin大学的Andrew Vanderburg(一位著名的天体物理学家,专注于研究系外行星探测)合作开发的。
就像所有基于神经网络的模型一样,这个模型也需要训练集。幸运的是,如前面所述,天文学家们已经人工手动检测和分类过了30000个Kepler信号。Google团队将其中一半的数据拿出来用作训练,其中有3500个信号经过验证后,被列为行星或行星候选者。
深度学习神经网络的高效性应该不用再多做赘述了。据谷歌方面介绍,研究人员为“猎星代码”设置了远低于原本检测点的信噪比阈值,且仅在筛查了670颗星球数据后,就发现了两颗全新的系外行星。当然,在降低阙值后,有大量的虚假信号,但我们却也因此大大降低了误判率。
最后
宇宙中的行星太多,谷歌选择开源“猎星代码”,或许是希望集众人之力,尽快将这些行星找出来。
按照国际惯例,个人发现小行星后,是能够以个人名义为其命名的。但为行星命名,必须通过IAU大会讨论后才能确定。但我们可以期待一下,如果因为“猎星代码”发现的行星数量极为庞大时,或许,我们就可以拥有一颗自己的行星,并为其命名,比如,镁客星。(作者:伶轩)