近年來金融、電子商務和互聯網行業大數據表現出的新的特點,如大規模、高維度、稀疏性、模式遷移等,這些特點對傳統的分類等判別模型構成重大挑戰。很多國際數據挖掘競賽(如:Kaggle)的獲勝者,認為取勝的關鍵在于:用更好方法表現數據,即更好地呈現數據的特征。筆者的基本觀點是:數據的表征學習和特征工程在大數據應用中扮演著非常重要的角色。本文以惡意電子商務檢測為例,提出了一系列的空間變換方法,以提高傳統分類器的分類檢測效果。本文整合了數個線性、非線性以及綜合空間變換方法(即:奇異值分解法、距離度量學習、Nystrom法、綜合方法),以提高基本分類器處理大規模URL數據集的效率與效果。本研究還開發了一個專門的系統,收集了331622條網址,并提取了相關的62個特征。在該數據集上的實驗表明,本研究提出的表征學習和特征工程方法解決了網址數據中存在的典型問題,并顯著提高了傳統分類器識別惡意網址的能力。