基础研究 16小时前 154 浏览次数 0 评论

IBM 和 NASA 联合训练出首个太阳物理学基础模型

InfoQ
InfoQ

发布了 251 文章

Surya是一个拥有3.66亿参数的模型,由 IBM 和 NASA 联合开发,用于预测太阳活动,包括耀斑事件、太阳风以及太阳爆发的前兆,这些现象可能会对宇航员的安全以及地球上的通信、电力分配等系统产生重大影响。


IBM 和 NASA 使用 NASA 太阳动力学天文台(SDO)卫星九年的全分辨率(4096×4096 像素)图像来训练Surya,这些图像以 12 分钟的频率拍摄。这一数据集使 Surya 能够学习通用的太阳表征,捕捉到从细小到大规模的事件及其时间变化。


IBM 和 NASA 的研究人员指出,这一新模型与以往专注于单一任务的模型截然不同,它代表了一种更具通用性的太阳物理学方法。


在太阳物理学领域,当前的机器学习应用大多依赖于针对特定任务的数据集以及从零开始训练的模型。这种做法不仅效率低下,还容易导致过拟合现象,并且由于标记数据的稀缺性,尤其是在处理罕见事件时,其应用范围受到显著限制。然而,这些罕见事件往往正是研究人员最为关注的焦点。


尽管 Surya 并非为特定任务而设计,但其性能却超越了现有的专用模型,包括用于太阳区域分割的 U-Net、用于太阳耀斑预测的 AlexNet 以及用于太阳风速度预测的 AlexNet 和 ResNet50。


从架构角度来看,Surya 采用了一个 2D 变换器,增强了两个频谱门控块、八个长短注意力块以及一个用于物理域重建的解码器块。


<!---->


两个频谱门控块结合了频域滤波和可学习权重,能够自适应地重新加权频谱分量,从而有效抑制噪声,同时增强数据中的相关特征。长短注意力块使模型能够捕捉细粒度的局部依赖关系、长距离相关性以及多尺度表征,从而更全面地理解数据。解码器块将特征映射回物理域,同时保留空间结构和通道关系。每个阶段的转换详细信息可在参考论文中找到。


研究人员表示,Surya 似乎能够生成具有一定物理感知能力的表征,而不仅仅是简单地记忆过去的模式。这一观点从其无需额外训练即可预测太阳动态的能力中得到了有力的印证。


Surya 可在 Hugging FaceGitHub 上找到。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


原文链接:

https://www.infoq.com/news/2025/08/surya-model-heliophysics/

InfoQ

InfoQ

251 文章 35535 浏览次数 0 粉丝

评论 (0)

睡觉动画