(文/图 软件学院 唐浩坤) 12月12日,软件学院中台技术团队在3207会议室召开了其成立以来的第二次学术交流会。本次会议由唐浩坤副院长主持,吴建强、焦叶骏老师参与,会议围绕吴建强老师前期研究的分布式数据存储领域的研究课题展开讨论。
会上,吴建强老师针对前一次交流会上唐浩坤副院长分享他在CNCC2024大会学习成果中提及有关数据保护技术——纠删码的技术,提出了他近两周来的学习成果。吴老师指出纠删码是一种高效的数据保护技术,已经在分布式存储系统中得到了广泛应用,当前有关纠删码的研究热点集中在高性能编码与解码算法、低冗余纠删码、异构存储环境下的纠删码等方面。如早期应用存储系统和通信领域的Reed-Solomon码,或具有较高编码效率的LDPC(Low-Density Parity-Check)码等都是纠删码的经典算法。他指出团队老师如果要在此领域做深入研究可选择高性能编解码算法,低冗余纠删码算法,异构存储环境下的纠删码算法以及纠删码在边缘计算,隐私保护等领域的应用。但是他也提到对纠删码领域的研究涉及大量矩阵运算,计算复杂度较高,对于研究者的数学功底有较高的门槛。
随后,吴老师向参会成员分享他在分布式小规模数据存储领域的一些可行性研究的思考。他着重比较了Hadoop项目中的核心组件HDFS系统与开源对象存储系统MinIO在处理海量分布式小规模数据对象时的差异,他提到HDFS作为流行的分布式存储系统,相关研究文章很多,但由于其设计之初主要用于处理大规模数据集的分布式存储,因此其在处理海量的小规模数据存储时存在诸如元数据管理瓶颈,数据块分配和存储效率低下,I/O 性能问题,MapReduce 任务启动开销大,存储和网络带宽浪费等问题,相反MinIO由于其在对象存储设计、高扩展性、S3 兼容性、数据一致性、安全性和元数据管理优化等的特点,在处理海量小规模数据存储时适用于更多种应用场景,如日志和事件存储,监控与指标采集,用户内容上传,容器镜像存储,备份和归档方面。但同时由于MinIO由于普及率不如HDFS高,技术还不成熟,相关研究还较稀少,因此在研究如何提升海量分布式小规模数据存储效率的问题上,可以考虑结合两者优点,找一些折中的解决方法。
会议最后,唐浩坤副院长肯定了吴老师对于本次讨论会前的总结与思考,也鼓励了中台团队成员大量阅读有关数据中台,技术中台以及服务中台的研究论文,找到团队成员研究可以落地,可以集思广益,形成体系研究的热点问题,将中台技术领域的研究做深做透。同时也确定了下一次团队成员集中讨论的时间,地点以及报告人员。