摘要:為了解決主成分分析(PCA)算法無法處理高維數據降維后再聚類精確度下降的問題,提出了一種新的屬性空間概念,通過屬性空間與信息熵的結合構建了基于特征相似度的降維標準,提出了新的降維算法ENPCA。針對降維后特征是原特征的線性組合而導致可解釋性變差以及輸入不夠靈活的問題,提出了基于嶺回歸的稀疏主成分算法(ESPCA)。ESPCA算法的輸入為主成分降維結果,不需要迭代獲得稀疏結果,增加了靈活性和求解速度。最后在降維數據的基礎上,針對遺傳算法聚類收斂速度慢等問題,對遺傳算法的初始化、選擇、交叉、變異等操作進行改進,提出了新的聚類算法GKA++。實驗分析表明EN-PCA算法表現穩定,GKA++算法在聚類有效性和效率方面表現良好。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社