2019年11月8日10至11时,华东师范大学数据科学与工程学院在中北校区文附楼118教室举办学术报告活动。应我院邀请,芬兰赫尔辛基大学(University of Helsinki)的陆嘉恒教授作了题为《COPING WITH BIG DATA VOLUME AND VERIETY》的报告。

本次学术报告由周烜副院长主持,陆嘉恒教授的主要研究方向是大数据管理和数据库系统,先后在上海交通大学获得硕士学位,新加坡国立大学获得博士学位,并在美国加利福尼亚大学尔湾分校(University of California, Irvine)做了两年博士后研究。陆教授在数据库会议和期刊上发表了一百多篇论文,并撰写了数本关于XML,Hadoop和NoSQL的书籍,其中关于Hadoop的书本是2013年中国计算机软件类畅销书前10名,关于XML和Hadoop的教科书也已经被世界各地的大学使用。陆教授曾任SIGMOD,VLDB,ICDE,EDBT,CIKM等数据库会议的组织主席和PC会员。

1573642716113060432.png

报告初,陆教授向在座师生简要的介绍赫尔辛基大学(芬兰文:Helsingin yliopisto,英文:University of Helsinki,缩写为UH),是位于芬兰首都赫尔辛基的一所古老的世界顶尖级高等学府,世界百强名校。其计算机系是Linux操作系统的发源地,并且排名位于北欧第三名,欧洲20名,系中现拥有30多位教授。

接下来陆教授说明本次报告主要汇报在赫尔辛基大学目前正在进行的两项研究:(1)“Automatic Parameter Tuning for Databases and Big Data Systems”主要涉及数据库系统自动化的参数调优的工作,自动的修改程序的参数使其更好的返回接口,以更快的运行。(2)“Multi-model databases and category theory”多模数据库管理,指一个数据库可以支持如关系、图、json文档等混合的多模式的异构结构,并说明从范畴论角度探索的理论研究。

1573642738884040247.png

陆教授首先介绍关于“Automatic Parameter Tuning for Databases and Big Data Systems”的研究。指出在大数据、分布式的背景下,调控和配置都比较复杂,做得不好会导致各种问题,如app的失效,SLA无法满足,成本过高等等。陆教授指出目前其主要想法是发展Self-driving systems,即自我驱动,系统可以达到自我优化,自我提升的需求。如在当前数据库系统中建立索引以及视图这些操作都需要人工去实现,但在Self-driving的系统下可以自动检测性能的降低,自主的去创建索引和视图。建立Self-driving systems从下到上有几个层次的自动化的方法:最底层可以实现自动的数据分配和分片,在其上可以建立index、view以加速查询,再上层可以自动调节系统参数,如buffer pool sizes等,而后还可以通过修改查询计划来加速查询。陆教授指出其主要的研究方向是如何修改和配置参数,并举例说明。同时也指出这一研究仍存在诸多挑战,现今的数据库系统种类繁多,并且每个系统中存在大量的参数,多样化的工作负载和系统的复杂性导致很难找到一个统一的归一化方法将参数调到最优。因此陆教授提出:面对系统的多样性,对于参数也是需要一个多样化的配置。

接下来陆教授介绍了关于“Multi-model database and category theory”的研究内容。指出数据库中的数据存在多样性的特征,其数据可能是关系数据、图数据、XML、JSON数据以及混合数据类型等,多模数据库管理的主要工作就是设计一个可以支持多个数据模型的数据库系统。目前关于多模数据管理主要有两种解决方法:其一是对于不同的数据采用不同的数据库管理,并建立一个统一的查询接口;其二是建立统一的数据引擎,使其可以支持不同的数据模型。后者是现今比较重要的研究方向,也是陆教授目前的研究方向。陆教授的想法是用一个基于范畴论的模型将多种数据模型都涵盖到一个框架下,从而建立一套Multi-model的理论。

1573642761623044835.png

报告结束后,老师和同学们积极提出问题,陆教授也分别进行了相应的回答。



文案:刘文欣

摄影:刘文欣


来源:华东师范大学数据学院