Wentao Zhang



e9d1820e28ef4de0ad934f91302352e3.jpg



Wentao Zhang is an assistant professor (Principal Investigator/PhD Advisor) in the Center of Machine Learning Research at Peking University (PKU), and he leads the Data-centric Machine Learning (DCML) group. His research focuses on DCML, Graph ML, and ML systems.  Wentao has published 40+ papers, including 10+ first-author papers in the top DB (SIGMOD, VLDB, ICDE), DM (KDD, WWW), and ML (ICML, NeurIPS, ICLR) venues. Besides, Wentao is the contributor or designer of several system projects, including Angel, SGL, and OpenBox. His research works have been powering several billion-scale applications in Tencent, and some of them have been recognized by multiple best paper awards, including the Best Paper Runner-Up Award at APWeb-WAIM 2023, and the Best Student Paper Award at WWW 2022.

Before joining PKU, Wentao worked as a postdoc research fellow at Montreal Institute for Learning Algorithms (Mila, Led by Yoshua Bengio). Besides, Wentao has accumulated for 4 years of industrial experience in the ML and Data Platform Department of Tencent and the AIML Department of Apple.


Homepage:  https://zwt233.github.io/


张文涛,北京大学国际机器学习研究中心助理教授、研究员、博士生导师,研究兴趣为以数据为中心的机器学习、图机器学习、机器学习系统和AI4Science。 他近3年在机器学习(ICML, NeurIPS, ICLR)、数据挖掘(KDD, WWW)和数据管理(SIGMOD, VLDB, ICDE)等领域发表30多篇CCF-A类论文,并获得多个最佳论文奖(如第一作者获WWW’22 Best Student Paper Award 和 通讯作者获APWeb-WAIM’23 Best Paper Runner Up Award)。他领导或参与开源了多个机器学习系统,如大规模图学习系统SGL、分布式机器学习系统Angel、和黑盒优化系统OpenBox。他曾获2021年度亚太地区唯一的Apple Scholar、2022世界人工智能大会云帆奖等多项荣誉。


研究方向:

1. 以数据为中心的机器学习(Data-centric ML)

近些年来AI模型发展遇到了瓶颈,大部分SOTA模型(如ChatGPT和SAM)都是沿用2017年提出的Transformer结构,性能收益来源由模型转变为数据。我主要考虑优化Data quality, quantity 和 efficiency,以较低成本和较短时间来获得大量高质量数据。以大模型为例,在考虑数据获取成本和效率的前提下,研究科学和系统的数据质量评估策略,设计高效的数据选择方法,构建有效的数据配比方式,并探索使用大模型来辅助数据优化(如自动数据标注)。


2. AI4Science

AI4Science是人工智能和Science交叉领域,也是目前学术界和工业界前沿的热点方向。我主要研究和设计高效的Science数据(如蛋白质和分子)构建和预处理方式,以及分子建模与生物制药等交叉应用。


3. 图机器学习(Graph ML)

图数据广泛存在于现实生活中,如微信里的社交网络,知识图谱以及淘宝推荐场景里的用户商品二部图。图机器学习也即“将机器学习应用于图数据”,有望解决传统深度学习无法处理的关系推理、可解释性等一系列问题。我主要考虑以图神经网络(GNN)为切入点,用DCML的思想来优化图数据(如图结构优化、图数据增强和图异常处理等)。


4. 扩散模型(Diffusion Model),多模态学习,生成式AI

扩散模型是当前最热门的生成模型,其应用领域包含了CV、NLP以及交叉学科等,我主要探究扩散模型如何更好地应用于各种复杂生成场景,如文生图、文生视频、可控3D生成、多模态学习等。


5. 机器学习系统(ML System)

ML System是人工智能和计算机系统的交叉领域,也是目前计算机系统研究前沿的热点方向。我主要考虑从系统层面来支持DCML任务,如支持多种类型(如Graph和Text)的数据格式,支持大规模数据的处理(如Distributed ML),以及降低系统的使用门槛(如AutoML)等。