
近日,信也科技聯合浙江大學正式公開發(fā)布大規(guī)模動態(tài)圖數據集DGraph,旨在服務圖神經網絡、圖挖掘、社交網絡、異常檢測等方向的研究人員,為之提供真實場景的大規(guī)模應用數據,幫助推動整個圖領域的發(fā)展。

1.場景真實
值得注意的是,DGraph 的源數據來源于信也科技的真實金融業(yè)務場景,并由信也科技對外開放共享給對圖領域感興趣的研究者。其構建邏輯貼近工業(yè)落地,為數據集的使用者提供了探索如何將圖模型擴展到金融領域落地應用的機會。DGraph一方面可以作為驗證相關圖模型性能的標準數據,用于解決不平衡節(jié)點分類、鏈接預測、圖分類等各種典型任務,另一方面可用于開展用戶畫像、網絡分析等研究工作。
2.結構動態(tài)
信也科技相關負責人透露:“像此次DGraph公開的如此大規(guī)模、真實的動態(tài)圖數據,據我們所知,在金融領域還是第一次。”DGraph作為一個有向無權的動態(tài)圖,包含超過370萬個節(jié)點和430萬條動態(tài)邊,支持大規(guī)模圖模型的研究與評估。其用戶關系采樣自橫跨27個月的業(yè)務場景,且網絡結構會隨著時間發(fā)生演化,為當前的動態(tài)圖模型與挖掘研究提供了結構動態(tài)的數據支持。
3.規(guī)模龐大
此外,DGraph 中包含超過200萬個“背景節(jié)點”,即并非分類或分析對象但實際存在、對業(yè)務邏輯有間接影響的節(jié)點。這些節(jié)點對于維持網絡的連通性有著重要作用,在工業(yè)界廣泛存在,可支持研究者深入探索背景節(jié)點的性質。合理處理背景節(jié)點可以在大規(guī)模數據場景下有效提升數據的存儲空間和模型的運行效率。
如下圖所示,DGraph中的節(jié)點表示信也科技服務的用戶,有向邊表示用戶關系,每個節(jié)點包含脫敏后的屬性特征,以及表示是否為金融詐騙用戶的標簽。

DGraph動態(tài)圖數據
研究團隊此前發(fā)布的論文《DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection》從圖異常檢測的角度出發(fā),對DGraph進行了深入的數據分析與實驗,結果闡明DGraph具有巨大潛力推動圖異常檢測的發(fā)展,同時DGraph所包含的多種廣泛存在的工業(yè)特點值得更進一步探索。
信也科技相關負責人表示:“目前DGraph網站已吸引了一批來自清華大學、中科大、上海交大、同濟大學等國內外知名高校的研究者。”其中,清華大學計算機系知識工程研究室基于他們最新的圖學習框架CogDL,為DGraph數據集提供了多種圖算法的Baseline。
當前,信也科技圍繞著DGraph舉辦的第七屆信也科技杯圖算法大賽正面向全社會開放報名,國內外高等院校、科研院所、互聯網企業(yè)等均可報名參賽,角逐共計31萬人民幣獎金。期待結合賽事契機,DGraph公開數據網站的發(fā)布能夠幫助激發(fā)更多相關領域研究,并融入拓展更多其他領域的數據和實際應用,從而支持對于圖領域特性和跨領域算法的研究,攜手共建開放的數字生態(tài)。
