学术报告

高维大数据的分布式稀疏回归算法及其应用

题目:高维大数据的分布式稀疏回归算法及其应用

报告人:王珊珊  副教授(北京航空航天大学)

摘要:随着互联网技术和人工智能的飞速发展,全球数据量迎来了爆炸式增长,将现代社会带入了“大数据”时代。许多数据集都具有庞大的样本量和高维度特征,形成了所谓的“高维大数据”。同时,这些高维大数据的变量之间往往存在极高的相关性,也给有效分析带来了巨大挑战。因此,本文面向高维大数据提出了一种分布式稀疏回归方法。具体地,通过分布式奇异值分解(SVD)实现了对高维大数据的列正交化,从而有效地去除了变量之间的相关性,解决了高相关性问题。结合基于正则化惩罚回归的 GraHTP 算法,采用分治法框架,进行对高维稀疏回归问题的分布式求解,从而实现了快速、高效的变量选择和参数估计。同时,本文还给出了所得估计量的优良理论性质,包括无偏性和稀疏度恢复,并将提出的算法应用于生成的高相关性、高维度、大样本量的模拟数据,验证了算法在理论与仿真方面的良好表现。最后,本文将所提出的算法应用于 2019 年至 2022 年间中国 A 股 2588 支股票数据的年化收益率预测。

报告人简介:王珊珊博士毕业于北京师范大学,新加坡南洋理工大学博士后,现任北京航空航天大学副教授,主要研究方向为高维数据分析和理论:超高维复杂数据统计建模、分析与统计推断;非参数统计建模;机器学习算法;生存数据分析;统计学和数据科学应用。主持国家自然科学基金项目、北航青年拔尖人才支持计划等多个项目。在《Advances in Data Analysis and Classification》、《 Computational Statistics》、《Neurocomputing》等统计权威期刊发表论文30余篇。

报告时间:2024年5月20日14:00-15:00 

报告地点:教二楼711

联系人:郭文雯