信控學院智能優化與控制課題組在非平衡數據流挖掘領域取得進展

算法框架圖
在眾多實際問題中,如設備故障檢測、信用卡欺詐行為監測、天氣預報和電力價格預測,數據大多以流的形式不斷產生,稱之數據流。這些數據往往隨著時間推移不斷到來,并且可能發生動態變化,稱之為概念漂移。研究如何構建有效的數據流分類模型,有助于人們從海量的數據中提取有價值的信息,為科學評判和決策提供支持,進而產生更大的社會價值。
近日,信控學院智能優化與控制課題組焦博韜博士、郭一楠教授和鞏敦衛教授在該領域取得研究進展,研究成果形成論文“Dynamic Ensemble Selection for Imbalanced Data Streams With Concept Drift”,該論文以中國礦業大學為第一單位,發表在中科院一區期刊《IEEE Transactions on Neural Networks and Learning Systems》(IF:14.255)。
本文針對數據流分類問題,提出了一種新穎的動態集成分類框架,旨在適應具有類別不平衡的數據流中的漂移概念。首先借助循環緩存數組,將數據流轉化為數據塊序列?;谙噜彅祿K間的樣本分布的變化,設計了一種具有自適應近鄰的少數類過采樣方法來平衡數據塊中不同類別間樣本規模的差異,并提出一種改進的集成選擇策略,用于從候選分類器池中為每一個查詢樣本構建最佳的分類器組合。
該成果首次面向數據流分類問題提出一種動態集成框架,在適應概念漂移的同時,提高了模型對少數類樣本的識別能力。在九個合成數據集和五個現實數據集的實驗結果表明,所提出的方法可以準確地跟蹤不平衡數據流中的新概念。