近日,信谊科技联合浙江大学正式发布大规模动态图数据集DGraph,旨在服务于图神经网络、图挖掘、社交网络、异常检测等领域的研究人员,为他们提供真实场景的大规模应用数据。DGraph一方面可以作为验证关联图模型性能的标准数据,另一方面也可以用于开展用户画像、网络分析等研究工作。
DGraph的源数据由心怡科技提供。DGraph是一个有方向无权重的动态图,包含370多万个节点,430万条动态边。如下图所示,DGraph中的节点代表新业科技服务的金融借贷用户,有向边表示紧急联系关系。每个节点包含脱敏后的属性特征和表示是否为金融诈骗用户的标签。
场景现实
DGraph来源于真实的金融业务场景,其构建逻辑接近产业落地,为数据集的用户提供了探索如何将图模型延伸到金融领域的机会。具体来说,DGraph中异常用户与正常用户的比例约为1:100,其“不平衡标签”特征符合真实场景,支持异常检测、不平衡节点分类等研究。
结构动力学
DGraph中的用户关系是从跨越27个月的业务场景中采样的,网络结构会随着时间演化,为当前的动态图模型和挖掘研究提供了数据支持。
大规模
DGraph包含370万脱敏的真实金融借贷用户,430万动态关系。其规模约为金融领域最大动态图数据Elliptic的17倍,支持大规模图模型的研究和评估。此外,60%的“后台节点”包含在DGraph中,即未被分类或分析但实际存在并对业务逻辑产生间接影响的节点。这些节点在保持网络的连通性方面起着重要的作用,它们广泛存在于工业中。后台节点的合理处理可以有效提高大规模数据场景下数据存储空和模型运行的效率。DGraph包含超过200万个背景节点,可以支持研究人员深入探索背景节点的本质。
ICT相关负责人还表示:“目前,DGraph网站已经吸引了一批来自清华大学、中国科学技术大学、上海交通大学、同济大学等国内外知名高校的研究人员。”近日,由DGraph举办的第七届新野科技杯图算法大赛面向全社会开放。国内外高校、科研院所、互联网公司均可报名参赛,角逐总奖金31万元。
信仰科技一直试图通过大数据、人工智能等先进技术,实现“科技,让金融更美好”的使命。未来,信仰科技将继续在数字化领域进行探索,为打造数字化机箱做出自己的贡献。
声明:市场有风险,选择要慎重!本文仅供参考,非卖品。