時間:2022-04-04 09:04:10
序論:在您撰寫挖掘技術論文時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
數據挖掘技術是近些年發展起來的一門新興學科,它涉及到數據庫和人工智能等多個領域。隨著計算機技術的普及數據庫產生大量數據,能夠從這些大量數據中抽取出有價值信息的技術稱之為數據挖掘技術。數據挖掘方法有統計學方法、關聯規則挖掘、決策樹方法、聚類方法等八種方法,關聯規則是其中最常用的研究方法。關聯規則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數據中挖掘出有價值的能夠揭示實體和數據項間某些隱藏的聯系的有關知識,其中描述關聯規則的兩個重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當Support和Confidence兩者都較高的關聯規則才是有效的、需要進一步進行分析和應用的規則。
二、使用Weka進行關聯挖掘
Weka的全名是懷卡托智能分析環境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業化的、基于JAVA環境下開源的機器學習以及數據挖掘軟件[2]。它包含了許多數據挖掘的算法,是目前最完備的數據挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數據環境的,Experimenter是對各種實驗計劃進行數據測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創建實驗方案,Simple-CLI為簡單的命令行界面。以下數據挖掘任務主要用Ex-plorer模塊來進行。
(一)數據預處理
數據挖掘所需要的所有數據可以由系統排序模塊生成并進行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學術著作總分、科研獲獎總分、科研立項總分、科研總得分更有利于數據挖掘計算,在這里我們將以上得分分別確定分類屬性值。
(二)數據載入
點擊Explorer進入后有四種載入數據的方式,這里采用第一種Openfile形式。由于Weka所支持的標準數據格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個文件并重新保存為arff文件格式來實現數據的載入。由于所載入的數據噪聲比較多,這里應根據數據挖掘任務對數據表中與本次數據任務不相關的屬性進行移除,只將學歷、職稱、論文等級、學術著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。
(三)關聯挖掘與結果分析
WeakExplorer界面中提供了數據挖掘多種算法,在這里我們選擇“Associate”標簽下的Apriori算法。之后將“lowerBoundMinSupprot”(最小支持度)參數值設為0.1,將“upperBoundMinSupprot”(最大支持度)參數值設為1,在“metiricType”的參數值選項中選擇lift選項,將“minMetric”參數值設為1.1,將“numRules”(數據集數)參數值設為10,其它選項保存默認值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關聯規則。其挖掘參數信息和關聯挖掘的部分結果。
三、挖掘結果與應用
以上是針對教師基本情況和科研各項總分進行的反復的數據挖掘工作,從挖掘結果中找到最佳模式進行匯總。以下列出了幾項作為參考的關聯數據挖掘結果。
1、科研立項得分與論文、科研總得分關聯度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應該是主持了省級或是國家級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有國家級論文或者省級論文進行發表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結果,在今后的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質上的幫助,這樣在很大程度上能夠帶動整個學校科研工作的進展。
2、副教授類的教師科研立項得分很高,而講師類教師和助教類教師的科研立項得分很低,這樣符合實際情況。因為副教授類的教師有一定的教學經驗,并且很多副教授類的教師還想晉職稱,所以大多數副教授類教師都會申請一些課題。而對于講師類和助教類的教師,由于教學經驗不足很少能進行省級以上的課題研究,因此這兩類教師的科研立項分數不高。針對這樣的結果,在今后的科研工作中,科研處可以采用一幫一、結對子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學能力。
[關鍵詞]數據挖掘數據挖掘方法
隨著信息技術迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)技術由此應運而生。
一、數據挖掘的定義
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
關鍵詞:挖掘機;維修;保養
隨著科技的進步,現代挖掘機一般都采用了機電液一體化控制模式,我們在排除一些故障時,解決的多是發動機、液壓泵、分配閥、外部負荷的匹配問題。一般在挖掘機作業中,這幾方面不能匹配,經常會表現為:發動機轉速下降,工作速度變慢,挖掘無力以及一些常見問題。
一、發動機轉速下降
首先要測試發動機本身輸出功率,如果發動機輸出功率低于額定功率,則產生故障的原因可能是燃油品質差、燃油壓力低、氣門間隙不對、發動機的某缸不工作、噴油定時有錯、燃油量的調定值不對、進氣系統漏氣、制動器及其操縱桿有毛病和渦輪增壓器積炭。如果發動機輸出動力正常,就需要查看是否因為液壓泵的流量和發動機的輸出功率不匹配。
液壓挖掘機在作業中速度與負載是成反比的,就是流量和泵的輸出壓力乘積是一個不變量,泵的輸出功率恒定或近似恒定。如果泵控制系統出現了故障,就不能實現發動機、泵及閥在不同工況區域負荷優化匹配狀態,挖掘機從而將不能正常工作。此類故障要先從電器系統入手,再檢查液壓系統,最后檢查機械傳動系統。
二、工作速度變慢
挖掘機工作速度變慢主要原因是整機各部磨損造成發動機功率下降與液壓系統內泄。挖掘機的液壓泵為柱塞變量泵,工作一定時間后,泵內部液壓元件(缸體、柱塞、配流盤、九孔板、龜背等)不可避免的產生過度磨損,會造成內漏,各參數據不協調,從而導致流量不足油溫過高,工作速度緩慢。這時就需要整機大修,對磨損超限的零部件進行修復更換。
但若不是工作時間很長的挖掘機突然變慢,就需要檢查以下幾方面。先查電路保險絲是否斷路或短路,再查先導壓力是否正常,再看看伺服控制閥-伺服活塞是否卡死以及分配器合流是否故障等,最后將液壓泵拆卸進行數據測量,確認挖機問題所在。
三、挖掘機無力
挖掘無力是挖掘機典型故障之一。對于挖掘無力可分為兩種情況:一種為挖掘無力,發動機不憋車,感覺負荷很輕;第二種為挖掘無力,當動臂或斗桿伸到底時,發動機嚴重憋車,甚至熄火。
①挖掘無力但發動機不憋車。挖掘力的大小由主泵輸出壓力決定,發動機是否憋車取決于油泵吸收轉矩與發動機輸出轉矩間的關系。發動機不憋車說明油泵吸收轉矩較小,發動機負荷輕。如果挖掘機的工作速度沒有明顯異常,則應重點檢查主泵的最大輸出壓力即系統溢流壓力。如果溢流壓力測量值低于規定值,表明該機構液壓回路的過載溢流閥設定值不正確,導致該機構過早溢流,工作無力。則可以通過轉動調整螺絲來調整機器。②挖掘無力,發動機憋車。發動機憋車表明油泵的吸收轉矩大于發動機輸出轉矩,致使發動機超載。這種故障應首先檢查發動機速度傳感系統是否正常,檢查方法與前文所述發動機檢查方法類似。經過以上細致的檢查與排除故障,發動機速度傳感系統恢復正常功能,發動機憋車現象消失,挖掘力就會恢復正常。
四、挖掘作業過程中的常見故障
挖掘機在施工作業中經常出現的一些普遍的故障,如:挖機行走跑偏,原因可能為行走分配油封(又稱中心回轉接頭油封)損壞;兩個液壓泵流量大小不一;一邊行走馬達有問題。液壓缸快速下泄則可能為安全溢流閥封閉不嚴,或缸油封嚴重損壞等等。
五、挖掘機的日常保養
為了防止挖掘機的故障發生,在日常使用過程中需要十分注意對挖掘機的保養。日常保養包括檢查、清洗或更換空氣濾芯;清洗冷卻系統內部;檢查和擰緊履帶板螺栓;檢查和調節履帶反張緊度;檢查進氣加熱器;更換斗齒;調節鏟斗間隙;檢查前窗清洗液液面;檢查、調節空調;清洗駕駛室內地板;更換破碎器濾芯(選配件)。清洗冷卻系統內部時,待發動機充分冷卻后,緩慢擰松注水口蓋,釋放水箱內部壓力,然后才能放水;不要在發動機工作時進行清洗工作,高速旋轉的風扇會造成危險;當清潔或更換冷卻液時,應將機器停放在水平地面上。
同時在啟動發動機前需要檢查冷卻液的液面位置高度(加水);檢查發動機機油油位,加機油;檢查燃油油位(加燃油);檢查液壓油油位(加液壓油);檢查空氣濾芯是否堵塞;檢查電線;檢查喇叭是否正常;檢查鏟斗的;檢查油水分離器中的水和沉淀物。
挖掘機在日常工作中遇到的故障還有很多,這里只是介紹了較為常見的幾類故障的維修方法,并且為了減少故障的發生,對挖掘機的日常保養是很重要的。只有做到保養和維護的雙重保障,才能保障挖掘機更好的正常工作。
參考文獻:
[1]鐘陳添.挖掘機液壓系統的常見故障分析及排除.科技資訊,2007,(22).
[關鍵詞]數據挖掘數據挖掘方法
隨著信息技術迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)技術由此應運而生。
一、數據挖掘的定義
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
參考文獻:
蘇新寧楊建林鄧三鴻等:數據挖掘理論與技術[M].北京:科學技術文獻出版社,2003
[關鍵詞]數據挖掘客戶關系管理應用步驟
根據波特的影響企業的利益相關者理論,企業有五個利益相關者,分別是客戶、競爭對手、供應商、分銷商和政府等其他利益相關者。其中,最重要的利益相關者就是客戶?,F代企業的競爭優勢不僅體現在產品上,還體現在市場上,誰能獲得更大的市場份額,誰就能在競爭中占據優勢和主動。而對市場份額的爭奪實質上是對客戶的爭奪,因此,企業必須完成從“產品”導向向“客戶”導向的轉變,對企業與客戶發生的各種關系進行管理。進行有效的客戶關系管理,就要通過有效的途徑,從儲存大量客戶信息的數據倉庫中經過深層分析,獲得有利于商業運作,提高企業市場競爭力的有效信息。而實現這些有效性的關鍵技術支持就是數據挖掘,即從海量數據中挖掘出更有價值的潛在信息。正是有了數據挖掘技術的支持,才使得客戶關系管理的理念和目標得以實現,滿足現代電子商務時代的需求和挑戰。
一、客戶關系管理(CRM)
CRM是一種旨在改善企業與客戶之間關系的新型管理方法。它是企業通過富有意義的交流和溝通,理解并影響客戶行為,最終實現提高客戶獲取、客戶保留、客戶忠誠和客戶創利的目的。它包括的主要內容有客戶識別、客戶關系的建立、客戶保持、客戶流失控制和客戶挽留。通過客戶關系管理能夠提高企業銷售收入,改善企業的服務,提高客戶滿意度,同時能提高員工的生產能力。
二、數據挖掘(DM)
數據挖掘(DataMining,簡稱DM),簡單的講就是從大量數據中挖掘或抽取出知識。數據挖掘概念的定義描述有若干版本。一個通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取人們感興趣的知識,這些知識是隱諱的、事先未知的、潛在有用的信息。
常用的數據挖掘方法有:(1)關聯分析。即從給定的數據集中發現頻繁出現的項集模式知識。例如,某商場通過關聯分析,可以找出若干個客戶在本商場購買商品時,哪些商品被購置率較高,進而可以發現數據庫中不同商品的聯系,進而反映客戶的購買習慣。(2)序列模式分析。它與關聯分析相似,其目的也是為了控制挖掘出的數據間的聯系。但序列模式分析的側重點在于分析數據間的前后(因果)關系。例如,可以通過分析客戶在購買A商品后,必定(或大部分情況下)隨著購買B商品,來發現客戶潛在的購買模式。(3)分類分析。是找出一組能夠描述數據集合典型特征的模型,以便能夠分類識別未知數據的歸屬或類別。例如,銀行可以根據客戶的債務水平、收入水平和工作情況,可對給定用戶進行信用風險分析。(4)聚類分析。是從給定的數據集中搜索數據對象之間所存在的有價值聯系。在商業上,聚類可以通過顧客數據將顧客信息分組,并對顧客的購買模式進行描述,找出他們的特征,制定針對性的營銷方案。(5)孤立點分析。孤立點是數據庫中與數據的一般模式不一致的數據對象,它可能是收集數據的設備出現故障、人為輸入時的輸入錯誤等。孤立點分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點分析發現信用卡詐騙,電信部門可以利用孤立點分析發現電話盜用等。
三、數據挖掘在客戶關系管理中的應用
1.進行客戶分類
客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數據挖掘可以幫助企業進行客戶分類,針對不同類別的客戶,提供個性化的服務來提高客戶的滿意度,提高現有客戶的價值。細致而可行的客戶分類對企業的經營策略有很大益處。例如,保險公司在長期的保險服務中,積累了很多的數據信息,包括對客戶的服務歷史、對客戶的銷售歷史和收入,以及客戶的人口統計學資料和生活方式等。保險公司必須將這些眾多的信息資源綜合起來,以便在數據庫里建立起一個完整的客戶背景。在客戶背景信息中,大批客戶可能在保險種類、保險年份和保險金額上具有極高的相似性,因而形成了具有共性的客戶群體。經過數據挖掘的聚類分析,可以發現他們的共性,掌握他們的保險理念,提供有針對性的服務,提高保險公司的綜合服務水平,并可以降低業務服務成本,取得更高的收益。
2.進行客戶識別和保留
(1)在CRM中,首先應識別潛在客戶,然后將他們轉化為客戶
這時可以采用DM中的分類方法。首先是通過對數據庫中各數據進行分析,從而建立一個描述已知數據集類別或概念的模型,然后對每一個測試樣本,用其已知的類別與學習所獲模型的預測類別做比較,如果一個學習所獲模型的準確率經測試被認可,就可以用這個模型對未來對象進行分類。例如,圖書發行公司利用顧客郵件地址數據庫,給潛在顧客發送用于促銷的新書宣傳冊。該數據庫內容有客戶情況的描述,包括年齡、收入、職業、閱讀偏好、訂購習慣、購書資金、計劃等屬性的描述,顧客被分類為“是”或“否”會成為購買書籍的顧客。當新顧客的信息被輸入到數據庫中時,就對該新顧客的購買傾向進行分類,以決定是否給該顧客發送相應書籍的宣傳手冊。
(2)在客戶保留中的應用
客戶識別是獲取新客戶的過程,而客戶保留則是留住老顧客、防止客戶流失的過程。對企業來說,獲取一個新顧客的成本要比保留一個老顧客的成本高。在保留客戶的過程中,非常重要的一個工作就是要找出顧客流失的原因。例如,某??茖W校的招生人數在逐漸減少,那么就要找出減少的原因,經過廣泛的搜集信息,發現原因在于本學校對技能培訓不夠重視,學生只能學到書本知識,沒有實際的技能,在就業市場上找工作很難。針對這種情況,學校應果斷的抽取資金,購買先進的、有針對性的實驗實訓設備,同時修改教學計劃,加大實驗實訓課時和考核力度,培訓相關專業的教師。
(3)對客戶忠誠度進行分析
客戶的忠誠意味著客戶不斷地購買公司的產品或服務。數據挖掘在客戶忠誠度分析中主要是對客戶持久性、牢固性和穩定性進行分析。比如大型超市通過會員的消費信息,如最近一次消費、消費頻率、消費金額三個指標對數據進行分析,可以預測出顧客忠誠度的變化,據此對價格、商品的種類以及銷售策略加以調整和更新,以便留住老顧客,吸引新顧客。
(4)對客戶盈利能力分析和預測
對于一個企業而言,如果不知道客戶的價值,就很難做出合適的市場策略。不同的客戶對于企業而言,其價值是不同的。研究表明,一個企業的80%的利潤是由只占客戶總數的20%的客戶創造的,這部分客戶就是有價值的優質客戶。為了弄清誰才是有價值的客戶,就需要按照客戶的創利能力來劃分客戶,進而改進客戶關系管理。數據挖掘技術可以用來分析和預測不同市場活動情況下客戶盈利能力的變化,幫助企業制定合適的市場策略。商業銀行一般會利用數據挖掘技術對客戶的資料進行分析,找出對提高企業盈利能力最重要的客戶,進而進行針對性的服務和營銷。
(5)交叉銷售和增量銷售
交叉銷售是促使客戶購買尚未使用的產品和服務的營銷手段,目的是可以拓寬企業和客戶間的關系。增量銷售是促使客戶將現有產品和服務升級的銷售活動,目的在于增強企業和客戶的關系。這兩種銷售都是建立在雙贏的基礎上的,客戶因得到更多更好符合其需求的服務而獲益,公司也因銷售增長而獲益。數據挖掘可以采用關聯性模型或預測性模型來預測什么時間會發生什么事件,判斷哪些客戶對交叉銷售和增量銷售很有意向,以達到交叉銷售和增量銷售的目的。例如,保險公司的交叉營銷策略:保險公司對已經購買某險種的客戶推薦其它保險產品和服務。這種策略成功的關鍵是要確保推銷的保險險種是用戶所感興趣的,否則會造成用戶的反感。
四、客戶關系管理應用數據挖掘的步驟
1.需求分析
只有確定需求,才有分析和預測的目標,然后才能提取數據、選擇方法,因此,需求分析是數據挖掘的基礎條件。數據挖掘的實施過程也是圍繞著這個目標進行的。在確定用戶的需求后,應該明確所要解決的問題屬于哪種應用類型,是屬于關聯分析、分類、聚類及預測,還是其他應用。應對現有資源如已有的歷史數據進行評估,確定是否能夠通過數據挖掘技術來解決用戶的需求,然后將進一步確定數據挖掘的目標和制定數據挖掘的計劃。
2.建立數據庫
這是數據挖掘中非常重要也非常復雜的一步。首先,要進行數據收集和集成,其次,要對數據進行描述和整合。數據主要有四個方面的來源:客戶信息、客戶行為、生產系統和其他相關數據。這些數據通過抽取、轉換和裝載,形成數據倉庫,并通過OLAP和報表,將客戶的整體行為結果分析等數據傳遞給數據庫用戶。
3.選擇合適的數據挖掘工具
如果從上一步的分析中發現,所要解決的問題能用數據挖掘比較好地完成,那么需要做的第三步就是選擇合適的數據挖掘技術與方法。將所要解決的問題轉化成一系列數據挖掘的任務。數據挖掘主要有五種任務:分類,估值預測,關聯規則,聚集,描述。前三種屬于直接的數據挖掘。在直接數據挖掘中,目標是應用可得到的數據建立模型,用其它可得到的數據來描述感興趣的變量。后兩種屬于間接數據挖掘。在間接數據挖掘中,沒有單一的目標變量,目標是在所有變量中發現某些聯系。
4.建立模型
建立模型是選擇合適的方法和算法對數據進行分析,得到一個數據挖掘模型的過程。一個好的模型沒必要與已有數據完全相符,但模型對未來的數據應有較好的預測。需要仔細考察不同的模型以判斷哪個模型對所需解決的問題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個事件或對象歸類?;貧w是通過具有已知值的變量來預測其它變量的值。時間序列是用變量過去的值來預測未來的值。這一步是數據挖掘的核心環節。建立模型是一個反復進行的過程,它需要不斷地改進或更換算法以尋找對目標分析作用最明顯的模型,最后得到一個最合理、最適用的模型。
5.模型評估
為了驗證模型的有效性、可信性和可用性,從而選擇最優的模型,需要對模型進行評估。我們可以將數據中的一部分用于模型評估,來測試模型的準確性,模型是否容易被理解模型的運行速度、輸入結果的速度、實現代價、復雜度等。模型的建立和檢驗是一個反復的過程,通過這個階段階段的工作,能使數據以用戶能理解的方式出現,直至找到最優或較優的模型。
6.部署和應用
將數據挖掘的知識歸檔和報告給需要的群體,根據數據挖掘發現的知識采取必要的行動,以及消除與先前知識可能存在的沖突,并將挖掘的知識應用于應用系統。在模型的應用過程中,也需要不斷地對模型進行評估和檢驗,并做出適當的調整,以使模型適應不斷變化的環境。
參考文獻:
[1]羅納德.S.史威福特.客戶關系管理[M].楊東龍譯.北京:中國經濟出版社,2002
[2]馬剛:客戶關系管理[M]大連:東北財經大學出版社,2008
[3]朱美珍:以數據挖掘提升客戶關系管理[J].高科技產業技術與創新管理,2006,(27)
[4]顧桂芳何世友:數據挖掘在客戶關系管理中的應用研究[J].企業管理,2007,(7)
數據挖掘技術是一種新型的技術,在現代數據存儲以及測量技術的迅猛發展過程中,人們可以進行信息的大量測量并進行存儲。但是,在大量的信息背后卻沒有一種有效的手段和技術進行直觀的表達和分析。而數據挖掘技術的出現,是對目前大數據時代的一種應急手段,使得有關計算機數據處理技術得到加快發展。數據挖掘技術最早是從機器學習的概念中而產生的,在對機器的學習過程中,一般不采用歸納或者較少使用這種方法,這是一種非常機械的操作辦法。而沒有指導性學習的辦法一般不從這些環境得出反饋,而是通過沒有干預的情況下進行歸納和學習,并建立一種理論模型。數據挖掘技術是屬于例子歸納學習的一種方式,這種從例子中進行歸納學習的方式是介于上述無指導性學習以及較少使用歸納學習這兩種方式之間的一種方式。因此,可以說,數據挖掘技術的特征在出自于機器學習的背景下,與其相比機器主要關心的是如何才能有效提高機器的學習能力,但數據挖掘技術主要關心如何才能找到有用、有價值的信息。其第二個特征是,與機器學習特點相比較而言,機器關心的是小數據,而數據挖掘技術所面臨的對象則是現實中海量規模的數據庫,其作用主要是用來處理一些異?,F象,特別是處理殘缺的、有噪音以及維數很高的數據項,甚至是一些不同類型數據。以往的數據處理方法和現代的數據挖掘技術相比較而言,其不同點是以往的傳統數據處理方法前提是把理論作為一種指導數據來進行處理,在現代數據挖掘技術的出發角度不同,主要運用啟發式的歸納學習進行理論以及假設來處理的。
2、數據挖掘技術主要步驟
數據挖掘技術首先要建立數據倉庫,要根據實際情況而定,在易出現問題的有關領域建立有效的數據庫。主要是用來把數據庫中的所有的存儲數據進行分析,而目前的一些數據庫雖然可以進行大量的存儲數據,同時也進行了一系列的技術發展。比如,系統中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結果的分析能力,而查詢的結果仍舊由人工進行操作,依賴于對手工方式進行數據測試并建模。其次,在數據庫中存儲的數據選一數據集,作為對數據挖掘算法原始輸入。此數據集所涉及到數據的時變性以及統一性等情況。然后,再進行數據的預處理,在處理中主要對一些缺損數據進行補齊,并消除噪聲,此外還應對數據進行標準化的處理。隨后,再對數據進行降維和變換。如果數據的維數比較高,還應找出維分量高的數據,對高維數數據空間能夠容易轉化為檢點的低維數數據空間進行處理。下一步驟就是確定任務,要根據現實的需要,對數據挖掘目標進行確定,并建立預測性的模型、數據的摘要等。隨后再決定數據挖掘的算法,這一步驟中,主要是對當前的數據類型選擇有效的處理方法,此過程非常重要,在所有數據挖掘技術中起到較大作用。隨后再對數據挖掘進行具體的處理和結果檢驗,在處理過程中,要按照不同的目的,選擇不同的算法,是運用決策樹還是分類等的算法,是運用聚類算法還是使用回歸算法,都要認真處理,得出科學的結論。在數據挖掘結果檢驗時,要注意幾個問題,要充分利用結論對照其他的信息進行校核,可對圖表等一些直觀的信息和手段進行輔助分析,使結論能夠更加科學合理。需要注意的是要根據用戶來決定結論有用的程度。最后一項步驟是把所得出的結論進行應用到實際,要對數據挖掘的結果進行仔細的校驗,重點是解決好以前的觀點和看法有無差錯,使目前的結論和原先看法的矛盾有效解除。
3、數據挖掘技術的方法以及在電力營銷系統中的應用和發展
數控挖掘技術得到了非常廣泛的應用,按照技術本身的發展出現了較多方法。例如,建立預測性建模方法,也就是對歷史數據進行分析并歸納總結,從而建立成預測性模型。根據此模型以及當前的其他數據進行推斷相關聯的數據。如果推斷的對象屬于連續型的變量,那么此類的推斷問題可屬回歸問題。根據歷史數據來進行分析和檢測,再做出科學的架設和推定。在常用的回歸算法以及非線性變換進行有效的結合,能夠使許多問題得到解決。電力營銷系統中的數據挖掘技術應用中關聯規則是最為關鍵的技術應用之一。這種應用可以有效地幫助決策人員進行當前有關數據以及歷史數據的規律分析,最后預測出未來情況。把關聯規則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關數據進行關聯規則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關聯信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統的應用中,時間序列挖掘以及序列挖掘非常經典、系統,是應用最為廣泛的一種預測方法。這種方法的應用中,對神經網絡的研究非常之多。因此,在現實中應用主要把時間序列挖掘以及神經網絡兩者進行有效地結合,然后再分析有關電力營銷數據。此外,有關專家還提出應用一種時間窗的序列挖掘算法,這種方式可以進行有效地報警處理,使電力系統中的故障能夠準確的定位并診斷事故。此算法對電力系統的分析和挖掘能力的提高非常有效,還可判定電力系統的運行是否穩定,對錯誤模型的分析精度達到一定的精確度。
4、結語