2020年10月30日上午10时,华东师范大学数据科学与工程研究生学术沙龙第8期在文附楼109如期举行。本次沙龙围绕主题“走向复杂图数据科学时代——前景、挑战与应用”展开,由数据学院师生进行了三场报告。活动聚焦前沿与应用,旨在帮助同学们了解图数据的普遍性和数据科学可能面临的问题,同时加深大家对复杂图数据分析重要性的认识。活动由研究生王皓月主持。
图1 王伟老师分享
首先,研究员王伟老师作题为“开放数字世界中的复杂图数据挑战——以教育与开源场景为例”的学术报告。王伟老师以教育与开源两个场景为例,说明了其背后的具有普适性规律的数据网络的统一模型。接着,他通过实际案例阐述这些数据网络的构建及其上层的典型应用,同时归纳出当下复杂图数据场景中的若干关键挑战。最后,为应对上述挑战,王伟老师发出呼吁,希望更多的专家学者们加入到这个前沿的研究领域中来。
图2 周添一同学分享
随后,硕士研究生周添一以“开源世界里的异质信息网络——建模、分析与应用”为主题作报告。他先介绍以GitHub为代表的Social Coding平台逐渐成为研究者们的关注热点,GitHub提供完备的API,以事件流的方式对外提供所有公开仓库上的用户行为数据。就上述热点信息,他阐述了这些用户行为数据对开展软件工程、群体协作行为等相关研究的所产生的巨大作用,将GitHub产生的海量数据建模为异质信息网络,能够很好的描述开源分布式开发的复杂交互过程以及开源软件生态,另一方面,也可以很自然的引入图表征学习等前沿技术,并应用到开发者复杂行为的分析任务上。因此,他随后着重介绍了如何将GitHub全域数据进行异质信息网络建模,进而开展各种典型的行为分析案例。
图3 范家宽同学分享
硕士研究生范家宽则以“基于深度强化学习的开发者社交网络贡献度提升方法”为主题作报告。首先,他说明了开源技术、开源软件以及开源社区对于当今数字化时代重要性,同时指出量化分析方法研究开发者社交网络的问题也已经成为一个重要的趋势。根据这一现状,他提出了一种数据驱动的开源贡献度量化评估与持续优化方法,并通过一个工具框架 Robotic Open Source Software Mentor(Rosstor)进行了实现。该框架包含两个主要部分:(1)采用熵权法来动态、客观的衡量网络中开发者对于开源项目做出的贡献;(2)贡献度持续优化模型采取了深度强化学习方法通过引导策略最大化开发者的贡献度。Rosstor框架为当下广泛开展的开源项目和开源社区的可持续健康发展提供了方法和工具上的支持。
本期研究生学术沙龙顺利结束。希望同学们广泛深入参与学院学术活动,接触不同研究领域的知识,继续激发学术志趣,提升创新能力。
文案:周锡雄
图片:朱香宁
排版:杨鸣