日前,信也科技联合浙江大学正式公开发布大规模动态图数据集DGraph,旨在服务图神经网络、图挖掘、社交网络、异常检测等方向的研究人员,为之提供真实场景的大规模应用数据。DGraph一方面可以作为验证相关图模型性能的标准数据,另一方面也可用于开展用户画像、网络分析等研究工作。
DGraph的源数据由信也科技提供。DGraph是一个有向无权的动态图,包含超过370 万个节点以及430万条动态边。如下图所示,DGraph中的节点表示信也科技服务的金融借贷用户,有向边表示紧急联系人关系,每个节点包含脱敏后的属性特征,以及表示是否为金融诈骗用户的标签。
场景真实
DGraph来源于真实的金融业务场景,其构建逻辑贴近工业落地,为数据集的使用者提供了探索如何将图模型扩展到金融领域落地应用的机会。具体而言,DGraph中的异常与正常用户比例约为1:100,其“标签不平衡”的特点符合现实场景,支持异常检测、不平衡节点分类等研究。
结构动态
DGraph中的用户关系采样自横跨27个月的业务场景,且网络结构会随着时间发生演化,为当前的动态图模型与挖掘研究提供了数据支持。
规模庞大
DGraph 包含370万名经过脱敏处理的真实金融借贷用户和430万条动态关系,其规模约为金融领域当前最大的动态图数据Elliptic的17倍,支持大规模图模型的研究与评估。此外,DGraph中包含60%的“背景节点”,即并非分类或分析对象但实际存在、对业务逻辑有间接影响的节点。这些节点对于维持网络的连通性有着重要作用,在工业界广泛存在。合理处理背景节点可以在大规模数据场景下有效提升数据的存储空间和模型的运行效率。DGraph中包含超过200万个背景节点,可以支持研究者深入探索背景节点的性质。
信也科技相关负责人表示:“目前DGraph网站已吸引了一批来自清华大学、中科大、上海交大、同济大学等国内外知名高校的研究者。”近期,信也科技围绕着DGraph举办的第七届信也科技杯图算法大赛正面向全社会开放报名,国内外高等院校、科研院所、互联网企业等均可报名参赛,角逐共计31万元奖金。
信也科技始终力图通过大数据、人工智能等先进技术实现“科技,让金融更美好”的使命,未来,信也科技将继续探索数字化领域,为打造数字化底盘贡献自身力量。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。