报告题目:大数据近似计算技术
报告人:黄哲学,深圳大学,特聘教授
报告时间:2021年11月29日(星期一) 下午2:30
报告地点:深圳大学沧海校区计算机与软件学院624课室
报告摘要:
大数据的显著特征是“大”,文件大小在TB级以上,这一特征给大数据的全量计算带来诸多挑战,例如:算法约束,内存约束,计算效率,计算成本等。面对这些挑战,采用样本对全量大数据做近似计算成为大数据计算的必然选择,但也带来了一系列新的理论和技术问题需要研究解决,例如,多大的数据样本能满足近似计算的要求?如何从大数据中抽取样本数据?如何评估近似计算的结果?采用什么样的分布式计算框架和算法?针对上述问题,本报告介绍一种新的大数据近似计算技术,具体内容包括:大数据多样本分析方法、大数据复杂度度量、样本集大小计算方法、随机样本划分数据模型、non-MapReduce计算框架、逼近式集成学习流程和大数据分析平台。这些创新可以为数字化转型和数字经济发展提供新的技术手段。
报告人简介:
深圳大学特聘教授、大数据技术与应用研究所所长、大数据系统计算技术国家工程实验室副主任,瑞典皇家理工大学博士,首批广东省领军人才,深圳孔雀计划高层次人才。符号值和混合值数据快速聚类算法研究的开拓者,发表了k-modes等一系列著名聚类算法,被纳入国内外教科书和专著,进入软件产品。荣获亚太地区知识发现和数据挖掘国际会议首个最有影响论文奖。发表学术论文200多篇,主要论文被引用超万次,单篇独立作者论文最高引用近3000次,入选斯坦福大学2020年全球前2%顶尖科学家“终身科学影响力排行榜”。近年来主要研究大数据并行与分布式计算技术,提出了随机样本划分(RSP)分布式大数据表达模型,创新性地融合了分布式计算、统计抽样和近似计算方法,有效地解决了超大数据计算的内存约束问题,研究成果荣获多个创新大赛奖,成功用于实际应用。