202204期大数据计算新范式--非MapReduce计算框架-深圳大数据技术与应用研究所

2022-11

202204期大数据计算新范式--非MapReduce计算框架

来源：浏览次数：

题目：大数据计算新范式--非MapReduce计算框架

报告人：黄哲学 教授深圳大学

主持人：陈小军副教授

时间：2022年11月4日下午2：30-3：30

地址：计算机与软件学院623会议室

报告摘要：

当前，大数据分布式计算绕不过MapReduce计算框架。由于其简单、易用和广泛流行，MapReduce已经成为了大数据分布式计算的代名词。但是，面对用高度迭代的复杂智能算法对超大规模的大数据做分布式计算的任务，MapReduce分布式计算系统面临计算效率低、数据扩展性差和复杂算法无法用MapReduce编程模型实现的窘境。其核心瓶颈是重复的Reduce操作产生巨大的数据shuffle和通信开销。本报告介绍一种新的非MapReduce 计算框架来突破这一计算瓶颈。新的计算框架将分布式计算分成两个步骤：local operation 和global operation，称之为logo计算框架。局部操作用串行算法在计算节点上对局部存储的随机样本数据块做独立计算，全局操作将多个节点独立计算的随机样本的结果做集成计算，得出全局结果，作为整个大数据的近似计算结果。logo计算框架只在全局操作需要数据通信，消除了MapReduce计算中重复Reduce操作的通信开销，计算效率和数据扩展能力大幅提高；同时，在局部操作中直接运行串行算法，不再需要按MapReduce操作重写。

实现logo计算框架的核心技术是随机样本划分大数据表达模型，即RSP数据模型。该模型将大数据集表示成一组小的随机样本数据集（称作RSP数据块）做分布式存储，每个随机样本集在局部操作步骤独立计算，产生独立的估计值。全局操作将局部分布式并行计算生成的大量随机样本估计值做集成，得到大数据计算的近似结果。logo计算框架可以解决大数据计算的许多问题，包括：算法约束，内存约束，计算效率，计算成本等。同时可以实现多集群协同的分布式计算。

报告人简介：

深圳大学特聘教授、大数据技术与应用研究所所长、大数据系统计算技术国家工程实验室副主任，瑞典皇家理工大学博士，首批广东省领军人才，深圳孔雀计划高层次人才。

符号值和混合值数据快速聚类算法研究的开拓者，发表了k-modes等一系列著名聚类算法，被纳入国内外教科书和专著，进入软件产品。荣获亚太地区知识发现和数据挖掘国际会议首个最有影响论文奖。发表学术论文250多篇，主要论文被引用超万次，单篇独立作者论文最高引用超3000次，入选斯坦福大学2020年全球前2%顶尖科学家“终身科学影响力排行榜”。

近年来主要研究大数据并行与分布式计算技术，提出了随机样本划分（RSP）分布式大数据表达模型，创新性地融合了分布式计算、统计抽样和近似计算方法，有效地解决了超大数据计算的内存约束问题，研究成果荣获多个创新大赛奖，成功用于实际应用。

上一篇:202205期 Continual Learning: Theory and Algorithms

下一篇:202203期低时延视频传输

博士生导师

黄哲学

黄哲学，瑞典皇家理工学院博士、深圳大学特聘教授、博士生导师，深圳大学大数据技术与应用研究所所长、大数据系统计算技术国家工程实验室副主任，首批广东省领军人才、深圳孔雀计划高层次人才，斯坦福大学全球“终身科学影响力排行榜”前2%顶尖科学家。符号数据快速聚类算法研究的开拓者，发表了k-modes等一系列著名聚类算法，被纳入国内外教科书和专著，进入软件产品。发表学术论文250多篇，主要论文被引用超万次。领导开发了全球首个面向算力网络的多数据中心大数据协同计算系统Octopus，最近获深圳第二十五届中国国际高新技术成果交易会“优秀产品奖”和“华为杯”第五届中国研究生人工智能创新大赛“一等奖”。
崔来中

2007年6月于吉林大学获工学学士学位，同年被免试推荐直接攻读博士研究生，2012年6月于清华大学获计算机科学与技术博士学位。研究领域包括：下一代互联网体系结构、软件定义网络、边缘计算、大数据分析、机器学习和智能计算。国际电子工程师学会高级会员(IEEE Senior Member)，中国计算机学会高级会员（CCF Senior Member），人工智能学会（CAAI）会员，CCF互联网专委会常委，CCF大数据专家委员会委员、CCF区块链专委会委员，CAAI知识工程与分布智能委员会副秘书长。担任SCI期刊《International Journal of Machine Learning and Cybernetics》、《International Journal of Bio-Inspired Computation 》和《Ad Hoc and Sensor Wireless Networks》的副编辑/编委。已主持国家重点研发计划课题、国家自然科学基金，广东省自然科学基金，广东省育苗工程，深圳市基础研究计划项目等项目10多项。已在国内外重要期刊以及国际会议上发表SCI/EI检索论文80余篇。《计算机网络》课程负责人，课程入选广东省一流本科课程。入选广东省青年珠江学者，深圳市优青、深圳市高层次人才和深圳大学“荔园优青”人才培养计划。
陈梓楠

陈梓楠（博士，国家海外优青，IEEE会员，ACM会员）现在担任深圳大学计算机与软件学院特聘教授。在研期间一共发表了顶级会议和期刊将近30篇论文，其中CCF A类论文有19篇（第一作者有12篇），主持了国家自然科学优秀青年（海外）项目1项和国家自然科学青年基金项目1项。此外，陈老师也是各大国际会议（包括：VLDB 2022 - 2024 （demo track）、VLDB 2025 （research track）、SIGKDD 2024 、ICDE 2022和2024、EDBT 2023、IJCAI 2020、DASFAA 2021 - 2024和WISE 2019 - 2024）和国际期刊（包括：VLDBJ、TKDE、AIJ、IEEE Transactions on Computers (TC)、WWWJ、 TSAS 、TNSE、PR Journal、DKE、JCST、The Journal of Supercomputing等等）的审稿人，并担任MDM 2021 - 2024的会议论文集主席 (proceedings chair)。

科研项目

2023年研究所项目情况2024-01-24

2022年研究所项目情况2023-01-04

2021年研究所立项项目2021-12-21

2020年研究所立项项目2020-12-31

联系我们

0755-2653 0821