時間:2023-04-01 10:29:11
序論:在您撰寫數據挖掘技術探討論文時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
參考文獻:
蘇新寧楊建林鄧三鴻等:數據挖掘理論與技術[M].北京:科學技術文獻出版社,2003
統計學論文2000字(一):影響民族院校統計學專業回歸分析成績因素的研究論文
摘要:學習成績是評價學生素質的重要方面,也是教師檢驗教學能力、反思教學成果的重要標準。利用大連民族大學統計學專業本科生有關數據(專業基礎課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進行深入研究,其結果對今后的教學方法改進和教學質量提高具有十分重要的指導意義。
關鍵詞:多元線性回歸;專業基礎課成績;平時成績;期末成績
為了實現教學目標,提高教學質量,有效提高學生學習成績是很有必要的。我們知道專業基礎課成績必定影響專業課成績,而且平時成績也會影響專業課成績,這兩類成績與專業課成績基本上是呈正相關的,但它們之間的關系密切程度有多大?它們之間又存在怎樣的內在聯系呢?就這些問題,本文主要選取了2016級統計專業50名學生的四門專業基礎課成績以及回歸分析的平時成績和期末成績,運用SPSS統計軟件進行分析研究,尋求回歸分析期末成績影響因素的變化規律,擬合出關系式,從而為強化學生的后續學習和提高老師的教學質量提供了有利依據。
一、數據選取
回歸分析是統計專業必修課,也是統計學中的一個非常重要的分支,它在自然科學、管理科學和社會、經濟等領域應用十分廣泛。因此研究影響統計學專業回歸分析成績的相關性是十分重要的。
選取了統計專業50名學生的專業基礎課成績(包括數學分析、高等代數、解析幾何和概率論)、回歸分析的平時成績和期末成績,結合多元線性回歸的基礎理論知識[1-2],建立多元回歸方程,進行深入研究,可以直觀、高效、科學地分析各種因素對回歸分析期末成績造成的影響。
二、建立多元線性回歸模型1及數據分析
運用SPSS統計軟件對回歸分析期末成績的影響因素進行研究,可以得到準確、科學合理的數據結果,全面分析評價學生考試成績,對教師以后的教學工作和學生的學習會有較大幫助。自變量x1表示數學分析成績,x2表示高等代數成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據經驗可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個基本假設,
1.隨機誤差項具有零均值和等方差,即
(2)
這個假定通常稱為高斯-馬爾柯夫條件。
2.正態分布假定條件
由多元正態分布的性質和上述假定可知,隨機變量y1服從n維正態分布。
從表1描述性統計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標準差分別為10.847,11.531,8.929,9.018,9.221,y1的標準差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數據分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F統計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關系是顯著的。
四、結束語
通過對上述模型進行分析,即各個自變量對因變量的邊際影響,可以得到以下結論:在保持其他條件不變的情況下,當數學分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對學生專業基礎課成績、平時成績與回歸分析期末成績之間相關關系的研究,一方面有利于教師把控回歸分析教學課堂,提高教師意識,注重專業基礎課教學的重要性,同時,當學生平時成績不好時,隨時調整教學進度提高學生平時學習能力;另一方面使學生認識到,為了更好地掌握回歸分析知識,應加強專業基礎課的學習,提高平時學習的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學和學生學習中的許多問題。
統計學畢業論文范文模板(二):大數據背景下統計學專業“數據挖掘”課程的教學探討論文
摘要:互聯網技術、物聯網技術、云計算技術的蓬勃發展,造就了一個嶄新的大數據時代,這些變化對統計學專業人才培養模式的變革起到了助推器的作用,而數據挖掘作為拓展和提升大數據分析方法與思路的應用型課程,被廣泛納入統計學本科專業人才培養方案。本文基于數據挖掘課程的特點,結合實際教學經驗,對統計學本科專業開設數據挖掘課程進行教學探討,以期達到更好的教學效果。
關鍵詞:統計學專業;數據挖掘;大數據;教學
一、引言
通常人們總結大數據有“4V”的特點:Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數據中挖掘和發現內在的價值,是這個時代帶給我們的機遇與挑戰,同時對數據分析技術的要求也相應提高。傳統教學模式并不能適應和滿足學生了解數據處理和分析最新技術與方法的迫切需要。對于常常和數據打交道的統計學專業的學生來說,更是如此。
二、課程教學探討
針對統計學本科專業的學生而言,“數據挖掘”課程一般在他們三年級或者四年級所開設,他們在前期已經學習完統計學、應用回歸分析、多元統計分析、時間序列分析等課程,所以在“數據挖掘”課程的教學內容選擇上要有所取舍,同時把握好難度。不能把“數據挖掘”課程涵蓋了的所有內容不加選擇地要求學生全部掌握,對學生來說是不太現實的,需要為統計學專業本科生“個性化定制”教學內容。
(1)“數據挖掘”課程的教學應該偏重于應用,更注重培養學生解決問題的能力。因此,教學目標應該是:使學生樹立數據挖掘的思維體系,掌握數據挖掘的基本方法,提高學生的實際動手能力,為在大數據時代,進一步學習各種數據處理和定量分析工具打下必要的基礎。按照這個目標,教學內容應以數據挖掘技術的基本原理講解為主,讓學生了解和掌握各種技術和方法的來龍去脈、功能及優缺點;以算法講解為輔,由于有R語言、python等軟件,學生了解典型的算法,能用軟件把算法實現,對軟件的計算結果熟練解讀,對各種算法的改進和深入研究則不作要求,有興趣的同學可以自行課下探討。
(2)對于已經學過的內容不再詳細講解,而是側重介紹它們在數據挖掘中的功能及綜合應用。在新知識的講解過程中,注意和已學過知識的融匯貫通,既復習鞏固了原來學過的知識,同時也無形中降低了新知識的難度。比如,在數據挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點就能和之前學過的內容有機聯系起來。
(3)結合現實數據,讓學生由“被動接收”式的學習變為“主動探究”型的學習。在講解每種方法和技術之后,增加一個或幾個案例,以加強學生對知識的理解。除了充分利用已有的國內外數據資源,還可以鼓勵學生去搜集自己感興趣的或者國家及社會大眾關注的問題進行研究,提升學生學習的成就感。
(4)充分考慮前述提到的三點,課程內容計劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實踐應用性,所以需要結合平時課堂表現、平時實驗項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實驗項目完成占40%,課堂表現占10%,這樣可以全方位的評價學生的表現。
三、教學效果評估
經過幾輪的教學實踐后,取得了如下的教學效果:
(1)學生對課程的興趣度在提升,課下也會不停地去思考數據挖掘有關的方法和技巧,發現問題后會一起交流與討論。
(2)在大學生創新創業項目或者數據分析的有關競賽中,選用數據挖掘方法的人數也越來越多,部分同學的成果還能在期刊上正式發表,有的同學還能在競賽中取得優秀的成績。
(3)統計學專業本科生畢業論文的選題中利用數據挖掘有關方法來完成的論文越來越多,論文的完成質量也在不斷提高。
(4)本科畢業生的就業崗位中從事數據挖掘工作的人數有所提高,說明滿足企業需求技能的人數在增加。繼續深造的畢業生選擇數據挖掘研究方向的人數也在逐漸增多,表明學生的學習興趣得以激發。
教學實踐結果表明,通過數據挖掘課程的學習,可以讓學生在掌握理論知識的基礎上,進一步提升分析問題和解決實際問題的能力。
>> 云計算架構及其關鍵技術 云計算及其關鍵技術 云計算及其關鍵技術問題 探析云計算體系架構及其關鍵技術分析 云計算及其關鍵技術研究 網絡環境下的云計算及其關鍵技術 云計算關鍵技術及挑戰 云計算關鍵技術研究 基于云計算的數據挖掘平臺架構及其關鍵技術研究 云計算的關鍵技術及其核心問題研究 基于云計算的電力數據中心基礎架構及其關鍵技術 基于云計算的數據挖掘平臺架構及其關鍵技術探討 淺談云計算環境下電子文件管理的關鍵技術 淺談云計算環境下的體系構架及關鍵技術 云計算安全關鍵技術研究 基于云計算的架構和關鍵技術探討 云計算的關鍵技術及發展前景 云計算關鍵技術及發展現狀研究 云計算體系架構與關鍵技術漫談 云計算環境下分布存儲關鍵技術解析 常見問題解答 當前所在位置:?fr=ala0_1_1.
[2] (美)MICHAEL MILLER云計算(史美林?譯)[M].北京:機械工業出版社,2009年4月.
[3] 王鵬.云計算的關鍵技術與應用實例[M].北京:人民郵電出版社,2009年12月.
[4] Luiz AndréBarroso, Jeffrey Dean, Urs H-lzle.
Web search for a planet: The Google cluster architecture [J]. IEEE Micro,Mar/Apr, 2003, 23(2): 22 -28.
大數據背景下的機器算法
專業
計算機科學與技術
學生姓名
楊宇瀟
學號
181719251864
一、 選題的背景、研究現狀與意義
為什么大數據分析很重要?大數據分析可幫助組織利用其數據并使用它來識別新的機會。反過來,這將導致更明智的業務移動,更有效的運營,更高的利潤和更快樂的客戶。
在許多早期的互聯網和技術公司的支持下,大數據在2000年代初的數據熱潮期間出現。有史以來第一次,軟件和硬件功能是消費者產生的大量非結構化信息。搜索引擎,移動設備和工業機械等新技術可提供公司可以處理并持續增長的數據。隨著可以收集的天文數據數量的增長,很明顯,傳統數據技術(例如數據倉庫和關系數據庫)不適合與大量非結構化數據一起使用。 Apache軟件基金會啟動了第一個大數據創新項目。最重要的貢獻來自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復雜數據準備和ETL的旗艦,可以為許多數據存儲或分析環境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發)通常用于大容量計算任務。這些任務通常是批處理ETL和ML工作負載,但與Apache Kafka等技術結合使用。
隨著數據呈指數級增長,企業必須不斷擴展其基礎架構以最大化其數據的經濟價值。在大數據的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產系統非常昂貴且效率低下。要使用大數據,您還需要適當的人員和軟件技能,以及用于處理數據和查詢速度的硬件。協調所有內容同時運行是一項艱巨的任務,許多大數據項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規模的公司都可以通過單擊幾下立即訪問復雜的基礎架構和技術。在這里,云提供了強大的基礎架構,使企業能夠勝過現有系統。
二、 擬研究的主要內容(提綱)和預期目標
隨著行業中數據量的爆炸性增長,大數據的概念越來越受到關注。 由于大數據的大,復雜和快速變化的性質,許多用于小數據的傳統機器學習算法不再適用于大數據環境中的應用程序問題。 因此,在大數據環境下研究機器學習算法已成為學術界和業界的普遍關注。 本文主要討論和總結用于處理大數據的機器學習算法的研究現狀。 另外,由于并行處理是處理大數據的主要方法,因此我們介紹了一些并行算法,介紹了大數據環境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數據量大的情況下算法和模型的關系,同時也會探討大部分細分行業數據量不大不小的情況下算法的關系。
三、 擬采用的研究方法(思路、技術路線、可行性分析論證等)
1.視覺分析。大數據分析用戶包括大數據分析專業人士和一般用戶,但是大數據分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數據的特征,并像閱讀照片的讀者一樣容易接受。 2.數據挖掘算法。大數據分析的理論中心是數據挖掘算法。不同的數據挖掘算法依賴于不同的數據類型和格式來更科學地表征數據本身。由于它們被全世界的統計學家所公認,因此各種統計方法(稱為真值)可以深入到數據中并挖掘公認的值。另一方面是這些數據挖掘算法可以更快地處理大數據。如果該算法需要花費幾年時間才能得出結論,那么大數據的價值是未知的。 3.預測分析。大數據分析的最后一個應用領域是預測分析,發現大數據功能,科學地建立模型以及通過模型吸收新數據以預測未來數據。 4.語義引擎。非結構化數據的多樣化為數據分析提出了新的挑戰。您需要一套工具來分析和調整數據。語義引擎必須設計有足夠的人工智能,以主動從數據中提取信息。 5.數據質量和數據管理。大數據分析是數據質量和數據管理的組成部分。高質量的數據和有效的數據管理確保了分析結果在學術研究和商業應用中的可靠性和價值。大數據分析的基礎是前五個方面。當然,如果您更深入地研究大數據分析,則還有更多特征,更深入,更專業的大數據分析方法。
四、 論文(設計)的工作進度安排
2020.03.18-2020.03.20 明確論文內容,進行相關論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。
2020.04.28-2020.04.30 :設計實驗。
2020.05.01-2020.05.07 :開展實驗。
2020.05.08-2020.05.15 :準備中期檢查。
2020.05.16-2020.05.23:根據中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。
2020.05.29-2020.06.26 :論文修改完善。
五、 參考文獻(不少于5篇)
1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數據分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應用,2012.被引量:273.
2 . 喻國明. 大數據分析下的中國社會輿情:總體態勢與結構性特征——基于百度熱搜詞(2009—2 012)的輿情模型構建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數據分析與情報分析關系辨析.中國圖書館學報,2014.被引量:16.
4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數據分析的分布式molap技術 .軟件學報,2014.被引量:6.
5 . 王德文,孫志偉.電力用戶側大數據分析與并行負荷預測 .中國電機工程學報,2015.被引量:19.
6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數據分析的輸變電設備狀態數據異常檢測方法 .中國電機工程學報,2015.被引量:8.
7 . 喻國明. 呼喚“社會最大公約數”:2012年社會輿情運行態勢研究——基于百度熱搜詞的大 數據分析.編輯之友,2013.被引量:4.
六、指導教師意見
簽字: 年 月 日
七、學院院長意見及簽字
關鍵詞: 數據倉庫與數據挖掘; 研討型; 教學模式; 教學實踐
中圖分類號:N42 文獻標志碼:A 文章編號:1006-8228(2012)12-52-02
Analysis on research-oriented teaching model in data warehousing and data mining
Huang Meili
(Zhejiang Agriculture and Forestry University, Lin'an, Zhejiang 311300, China)
Abstract: As a comprehensive and practical course, data warehousing and data mining is opened not so long ago, so teaching methods of this course for undergraduate students are rarely seen. Based on the characteristics of this course, combined with teaching experience of several years, the application of research-oriented teaching model is mainly discussed and several typical students’ learning outcomes are listed. Finally, some places which need to be cautious are put forward.
Key words: data warehousing and data mining; research-oriented; teaching model; teaching practice
0 引言
20世紀90年代興起的數據倉庫和數據挖掘是數據庫研究、開發和應用中最活躍的兩個領域。隨著其理論及應用技術和產品的不斷成熟與發展,數據倉庫與數據挖掘不僅成為高等院校計算機專業、信息技術與信息管理類專業碩士、博士研究生的專業課程,而且相繼在本科相關專業高年級學生中開設了該課程。
該課程是一門綜合性和實踐性很強的課程,其內容新且廣,對于本科教學有一定的難度。本文針對課程自身特點及高年級學生學習及能力培養需要,結合自身教學實踐,探討以激發學生學習興趣為著眼點、學生分析解決問題能力培養為目的的研討型教學模式。
文中章節1具體介紹課程內容、教學過程中存在的問題及研討型教學模式;在章節2中,以自身的教學實踐為例,給出研討型教學實踐效果及該方法應用的注意事項;最后,是結論部分。
1 本科數據倉庫與數據挖掘課程教學
1.1 課程教學內容
數據倉庫與數據挖掘課程涉及兩方面的教學內容:①數據倉庫技術和基于數據倉庫的聯機分析處理應用技術。具體包括數據倉庫的基本概念、創建技術和方法、數據倉庫的體系結構以及OLAP的基本概念、多維數據庫、OLAP的實現技術。②數據挖掘的基本概念、基本方法和基本技術(包括分類、預測、關聯、聚類等),以及數據挖掘的應用。
1.2 課程在本科教學過程中存在的問題
⑴ 教學內容不統一
由于該課程是一門綜合性很強的課程,涉及到的學科知識很廣,加上在本科教學中開設的時間并不長,也沒有得到大家一致認可的相應教材供使用,使得開設該課程的不同高校的教學內容與教學重點各不相同,即便是同一學校不同教師對于教學內容的把握上也有很大差異。
⑵ 傳統教學方法的不適用性
雖然本課程涉及內容寬泛,而且是在已具備自主學習能力的本科高年級學生中開設的,但是課程的教學方法卻多采用傳統的以教師講授為主、學生為輔的教學模式。
從本科教學過程中存在的問題可見:課程授課對象及課程自身的特點,決定了傳統教學方法的不適用性[1-3]。因此,有必要探討新的教學模式在具體教學實施過程中的應用。
1.3 研討型教學模式
雖然課程涉及到的學科內容廣且深,但是對于已學習高等數學,并熟悉數據庫知識和具備程序設計能力的高年級學生而言,還是能較好地掌握數據倉庫的建模以及經典數據挖掘算法的實現與簡單應用。因此,在課程的教學實踐中,我們把該部分內容作為課堂教學的重點;對于一些較難的和新的挖掘算法與技術,及其應用和最新發展趨勢,則作為學生研討內容。
作為傳統的教師講解教學模式的有益補充和提高,開展研討型的教學模式,可以按照如下四個環節開展:
⑴ 教師出題&學生選題;
⑵ 相關文獻查閱;
⑶ 報告撰寫;
⑷ 課堂匯報與討論。
第一步,由教師出題,學生選題。在學期初,就由教師給出研討的主題供學生選擇。這樣既可以避免學生選題過于盲目,也可以避免最后課堂討論階段的研討內容偏離課程教學主題。
第二步,相關文獻查閱。在接下來的課程教學期間,學生除了保證基本的學習內容的掌握之外,還需要利用課余時間,利用各種手段查閱與選題相關的文獻,為報告的撰寫和匯報階段做充分的準備。
第三步,報告撰寫。經過大量的文獻閱讀后,學生需撰寫文獻閱讀報告,報告的撰寫格式可以參考畢業設計的要求。
第四步,課堂匯報與討論。在課程后期,教師在每次課堂上抽取一定的時間,供學生課堂匯報,然后其他學生與教師一起針對學生的匯報內容展開討論。該環節的開展,既開拓了學生的視野,又可以有效地避免部分學習不認真的學生的應付行為。
從教師出題到最后的學生課堂匯報與討論,每個環節都要求學生的親自參與。這樣,在課時有限的情況下,以研討型的教學模式開展教學,既可以保證教學內容的講授,又能使學生主動參與到課堂教學中來,激發了學生的學習主動性,拓寬了學生的視野。
2 研討型教學實踐效果及注意事項
2.1 教學及其效果
我校在大四計算機專業學生中開設該課程。其中,理論32學時,實驗16學時,共計48學時。教材采用韓家煒先生編著的《數據挖掘:概念與技術》一書[4]。該教材是得到業內廣泛認可的經典教科書,但教材內容偏重理論。為了在有限的課時內,讓學生盡可能掌握基本教學內容,使得研討型教學模式得以開展,我們以李志剛編著的《數據倉庫與數據挖掘的原理與應用》作為相關內容的輔助教材[5]。具體地,按如下方式進行。
2.1.1 教學內容及學時分配
教學內容圍繞數據倉庫與數據挖掘兩條主線展開。涉及的相關內容及學時分配如表1所示。
2.1.3 考核方式
期末總成績=平時成績25%+文獻報告25%+期末卷面成績50%
在最近兩年的研討型教學模式實踐中,我們選出有代表性的學生作品,如表3所示。
2.2 教學注意事項
研討型教學模式適用于“數據倉庫與數據挖掘”課程的教學,但是在相應課程中開展研討型的課程教學模式需注意以下幾點。
⑴ 注意授課對象的選擇。文獻資料的查閱、文獻閱讀報告的撰寫以及課堂匯報是研討型教學模式開展過程中的主要環節,而這些環節要求學生所需具備的能力,不適于在低年級學生中開展。
⑵ 注意教學模式的選用。研討型教學模式不能代替傳統的教師講解的教學模式,而應是兩者的有機結合。
⑶ 注意考核方式的改革。研討型教學模式的開展,除占用一定的課堂教學時間之外,還需要學生花費大量的課外時間用以查閱文獻資料、撰寫報告等。如果采用傳統的以考試為主的考核方式,那么在實踐過程中可能會遇到部分學生的抵制。因此,為了提高研討型教學模式的效果,需要對傳統的以期末筆試成績為主的評價方式進行適當改革,向研討內容及成果傾斜,以提高學生的積極性。
3 結束語
研討型教學模式的開展,可以有效地避免傳統教學方法下以教師講解為主,以學生為輔的填鴨式教學模式,較好地解決數據倉庫與數據挖掘課程在本科教學過程中遇到的問題。
經過近幾年在本科計算機專業畢業班對該課程采用研討型教學模式的實踐表明,該模式的開展不僅有效地激發了學生的學習興趣,開拓了學生的視野,而且能夠很好地為學生的畢業設計環節中有關文獻查詢、論文撰寫及答辯等奠定基礎。從列舉的近兩年的代表性學生研討內容及成果中可以看到,該教學模式在高年級學生中開展是現實可行的,而且也是有效的。
研討型教學模式的開展,需要占用一定的教學時間,如何在有限的課時內保證教學內容,并擠出足夠的時間開展研討是教師必須考慮的問題;與此同時,學生為準備研討內容需要花費大量的課余時間,因此,如何調動學生的積極性也是該模式能否成功應用的關鍵因素之一。上述兩方面的問題,都有待在今后的教過實踐中,進一步深入細化該模式,以更好地達到教學培養目標。
參考文獻:
[1] 徐金寶.對應用型本科生開設數據挖掘課程的嘗試[J].計算機教育,
2007.7:27-29
[2] 胡建軍.淺談數據倉庫與數據挖掘的本科教學[J].廣西科學院學報,
2007.23(3):209-210,214
[3] 韋艷艷,張超群.“數據倉庫與數據挖掘”課程教學實踐與探索[J].高
教論壇,2011.1:94-96,99
[4] 李志剛,馬剛.數據倉庫與數據挖掘的原理及應用[M].高等教育出版
社,2008.
討論如何在圖書館個性化推薦中應用網絡數據挖掘,并具體對社會網絡分析的應用進行了深
入分析,提出了具體算法。
網絡數據挖掘又稱Web數據挖掘,是數據挖掘技術在網絡信息處理中的應用,從與網絡相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,是從Web網站的數據中發掘關系和規則。其挖掘對象是大量、異質、分布的Web文檔,可以對數據庫、Web服務器上的日志、讀者信息等數據展開挖掘工作。同時,由于Web在邏輯上是一個由文檔節點和超鏈接構成的圖,因此Web挖掘所得到的模式可能是關于Web內容的,也可能是關于Web結構的,或者是關于用戶行為模式的1。通過網絡數據挖掘對每個用戶的訪問行為、頻度、和內容等進行分析,能提取出每個用戶的特征,給每個用戶個性化的界面,提供個性化的Web信息服務。
本文以中國知網(CNKI)總庫為統計源,以主題“We數據挖掘”、“網絡數據挖掘”搜索到國內近六年的論文數量,從中可以看出相關領域的研究從2007年開始呈逐年上升趨勢,2009年達到峰值后,逐年有所下降。具體數據如表2所示:
根據對這些文章內容的分析,研究網絡數據挖掘算法及其實現的占大多數,國內關于網絡數據挖掘在圖書館的應用研究不多,大多是作為電子商務中數據挖掘研究的一部分。網絡數據挖掘在圖書館中的應用主要表現在以下幾個方面:
(1)圖書推薦系統。這類系統主要通過日志挖掘讀者的借閱習慣,推測讀者的閱讀需求,從而為不同興趣的讀者提供相應的推薦內容。這種個性化推薦系統能夠較好地把握讀者需求,通過聚類和關聯規則為讀者推薦借閱過的相似圖書或可能需要的其他文獻。但它的缺點在于,推薦的相似圖書,讀者已經借閱過,再借閱的幾率不大。因此,這個研究的重點和難點在使用的挖掘算法上2。
(2)網絡學習平臺?,F代圖書館越來越重視讀者的學習需求,從而推出各種學習服務3。這類應用主要是針對網絡學習中的學習資源的挖掘。因為在圖書館提供的虛擬學習平臺中,資源是龐大的,而讀者的精力有限,同時每個人的興趣不同,需要對不同的讀者組織不同的教育資源。而網絡數據挖掘在其中所起的重要作用就是對讀者的借閱和瀏覽行為進行挖掘分析,根據分析結果為讀者匹配學習資源。
(3)文獻檢索系統。網絡數據挖掘技術也常見于文獻檢索系統的應用中,圖書館資源包含大量的文本、期刊、視頻等。讀者常常需要通過檢索才能獲取自己想要的信息,使用網絡數據挖掘也是為讀者提供高效獲取信息的方式。
由以上分析看出,網絡數據挖掘在圖書館中應用的主要目的就是為讀者找到所需資源,滿足讀者的個性化需求。下面我們就針對網絡數據挖掘在圖書館個性化推薦中的應用進行探討。
1、 圖書館個性化推薦常用分析方法
1.1聚類算法
通常說來,許多圖書館的讀者建模方法是基于統計的,即對所有讀者的統計數據(比如基于平均值)進行分析。這樣的后果是對讀者的個性化行為視而不見,影響了讀者專業性和個性化需求,忽略了隱含的讀者信息的價值。而讀者聚類建模,則是把一類讀者聚集起來,分析他們的特性并對這類讀者建模,在建模質量相同或接近的條件下,聚類建模所需的數據量將遠遠低于對單個讀者建模的數據量,因為分類中的每個讀者(知識背景和生活閱歷貢獻具有很大的相似度)都貢獻了其數據。常用聚類算法如表3。
1.2 社會網絡分析
社會網絡分析已經有相當長的一段歷史了,近60年來,相關研究人員做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg說提出來的HITS算法開創了將社會網絡研究應用在Web范疇的先河。這兩種算法都來源于社會網絡分析,都利用了網頁的超鏈接結構并依據網頁的“威望”或者“權威”級別來對網頁進行分級排序。這在搜索引擎中得到了廣泛的運用。圖書館也同樣存在著這樣的社會網絡關系,這種關系主要通過讀者瀏覽和獲取文獻行為體現。這種關系和活動可以用網絡或圖來表示,其中,每一個頂點(結點)用來表示一個讀者,而一條邊的連接用來表示兩個讀者之間的關系。利用網絡圖我們可以研究該網絡的結構特征,以及每個讀者威望性、中心性等屬性。同時從中我們也可以找到各種類型的子圖,即社區。
2、 基于網絡數據挖掘的圖書館個性化推薦分析
2.1基于K-means聚類推薦分析
圖書館讀者聚類可以通過兩種方式進行聚類,建立二維推薦模型,即:查詢聚類和借閱聚類。在此,只要實現查詢信息和借閱信息的高效率、高準確率的自動分類,然后根據讀者興趣模型匹配,就可以完成其推薦過程。自動分類信息可以采用K-均值聚類算法實現,并根據圖書館相關信息結構的特點,對算法本身加以改進。具體流程如圖1。
2.2 基于PageRank社會網絡分析
在圖書館借閱場景下,讀者瀏覽和借閱行為反應了讀者的需求。PageRank算法關鍵在于測度每個對象的隨機訪問概率。我們假定讀者借閱史就是讀者推薦書目單,反應了讀者對于圖書的認可程度。在此,我們可以把訪問概率轉化為讀者推薦書目單的緊密程度,因此,問題轉化為求讀者推薦書目單的緊密程度,然后通過PageRank算法,求出讀者推薦書目單的權威度排名,進而推薦給興趣模型相似的讀者。
我們用dist(j, t)表示兩個讀者推薦書目單關系程度,使用其文本相似度 來度量,進而產生新的PageRank2算法。對于每個讀者推薦書目單,其重要度PR2(i)可定義為:
其中DIS(j,i)定義為:
在實際應用中,由于某些讀者推薦書目單可能與其他讀者推薦書目單 值為0,故將公式2調整為:
其中a為衰減系數,設定為0和1之間,其本質是為了消除孤立讀者,給每個讀者增加一條指向所有其它讀者的鏈接,并且給予每個鏈接一個由參數a控制的轉移概率,在這里我們沿用PageRank中的取值a=0.8570。
3、 結語
本文主要探討了網絡數據挖掘在圖書館中的應用問題,并對于社會網絡分析的應用進行了較為深入的分析,提出了具體算法。網絡數據挖掘廣泛應用于互聯網。隨著數字圖書館的不斷興起,其在圖書館領域的應用將更加廣泛4。但是,圖書館相對封閉的信息環境制約著網絡數據挖掘的應用。相信隨著Web2.0和讀者個性化需求不斷得到重視5,數字圖書館技術的不斷發展,網絡數據挖掘將會發揮更加重要的作用。
參考文獻
[1] 馬費成,王曉光.信息資源管理研究及國際前沿[J].情報學研究進展.武漢大學出版社,2007.
[2] 劉曉忠.數據挖掘技術在圖書館建設中的應用[J].硅谷,2012(6).
[3]夏南強,張紅梅.基于數據挖掘的數字圖書館個性化服務[J].圖書館學研究, 2006, (1):32-34.
【關鍵詞】信息資源管理;研究生教學;財經院校
【中圖分類號】G642 【文獻標識碼】B 【論文編號】1009―8097 (2008) 09―0125―03
信息資源管理(IRM)是為了確保信息資源的有效利用、以現代信息技術為手段,對信息資源實施計劃、預算、組織、指揮、控制、協調的一種管理活動[1]。信息資源管理的理論和實踐活動及以后信息資源管理類學科之間的集成和整合的需要,導致了一門滲透性很強的橫斷學科――信息資源管理學產生[2],其內容涉及信息科學、管理科學、數據處理、通信、計算機科學、文獻情報學等各個方面。隨著全球信息化基礎設施建設的熱潮,信息資源管理也成為國內外高校開設的一門重要課程。
一 國內外高校同類課程現狀
信息資源管理作為一門新興邊緣學科,打破了原有學科界限,具有鮮明的時代特征,作為檔案學、圖書館情報學和情報學的一個分支領域,多學科綜合性、交叉性等特點是其典型特征[2]。在國外大學,IRM課程多設置在信息科學專業,如美國東北大學,或者圖書館學專業,如威斯康星大學。根據學科專業不同,課程側重點也有所不同,主要可分為三大方向:信息系統學派、記錄管理學派、信息管理學派。
90年代初,中國學者孟廣均和盧泰宏等人系統地引入了信息資源管理理論[3]。目前,國內很多高校信息管理專業和圖書館情報學專業都開設了信息資源管理課程,大多都設置在本科專業,也有一些設立了碩士和博士研究方向。大部分還是以傳統的信息管理為主線,以理論教育為主導,和企業應用及時代特點結合的較少,教學重點也依專業有所不同。
二 課程教學探討
1 課程定位
我校自2001年開始開設此課程作為信息學院碩士研究生必修課程。不同于其他高校的信息管理專業和圖書館情報學專業,我校是財經類院校,信息學院碩士方向主要為電子商務、供應鏈管理、信息管理,是以管理學、經濟學為主、信息技術為輔助實現手段的交叉學科,因此我們的IRM課程定位也是多學科交叉,側重從管理思維及企業應用而不是技術角度,結合當前知識經濟時代特征組織課程內容體系、分析講解問題,和企業市場對具有復合型知識結構人才的需求緊密結合。
2 體系結構
本課程自開設以來,一直由作者承擔此課程的教學及相關研究工作。作者在對當前國內IRM教材著作、教學內容深入研究及6年教學實踐體驗的基礎上,結合在美國威斯康星大學圖書館和信息科學學院的交流學習經驗,提出了適合本專業方向和學生特點的創新課程體系結構,經過多次教學實踐,得到學生的認可。我們的課程體系遵循系統性和創新性原則,在保證教學內容所包含的知識是具有內在邏輯聯系的完整知識體系前提下,區別于以傳統信息系統管理為主線的內容體系,采用符合知識經濟時代特征的體系結構,反映學科領域最新成果,在這里提出來供大家探討。
(1) 信息資源管理概述:作為整個課程的基礎,這部分主要包括數據、信息、信息資源、信息化、信息產業、知識、知識經濟、知識管理等概念及其關聯,目的是使學生掌握信息資源從產生到利用到再創造的過程。
(2) 知識管理:知識是從相關信息中過濾、提煉、經過人腦加工得到的有用信息,知識管理是現代信息資源(知識資源)管理的核心。這部分主要介紹知識的生命周期;企業知識管理的原因、目的、工具和手段;知識管理的企業實施和應用;知識管理系統方案和技術平臺;北京移動、三星等企業知識管理案例分析。
(3) 數據挖掘:數據挖掘是數據庫中的知識發現,是從海量數據中抽取出潛在的、有價值的信息、知識,是針對目前企業面對大量雜亂數據無法辨別有價值的資源進行管理,而提出的方法。本部分主要介紹數據挖掘的特點、原由、過程、人員、環境、相關技術;數據挖掘的商業應用;相關軟件(重點SPSS系統);數據挖掘與CRM;數據挖掘在證券行業、網絡應用、遠程教育等方面的應用案例分析。不同于介紹技術和算法為主的數據挖掘課程,本課程重點在于數據挖掘的商業應用,側重于分析、管理和應用。
(4) 信息資源規劃(IRP):IRP是完全中國特色的信息資源管理內容,是指對企事業單位或政府部門所需要的信息資源,從采集、處理、傳輸到使用的全面規劃,是針對于國內信息化建設的總體規劃。主要內容包括:信息資源管理基礎標準的講解及應用;信息資源網;IRP在大型企事業單位的實施(四一三三原則);IRP與ERP;IRP2000系統軟件介紹;政府信息資源規劃案例。
(5) 首席信息執行官(CIO):CIO在企業的角色主要就是對企業的信息資源進行總體規劃、協調、管理,因此這部分主要介紹IRM與CIO;中國CIO面臨的挑戰和機遇;CIO與IRP的工程化方法;CIO與本組織信息化整體解決方案(IT服務鏈)。
(6) 網絡信息資源管理:適應當前網絡發展,介紹通過網絡如何對信息資源進行更好的組織和管理。主要包括網絡信息資源及信息結構;網絡信息資源組織;信息結構(導航、標志、檢索等系統)設計;網站資源設計原則;案例分析。
(7) 信息資源安全管理:在信息資源的開發、管理和利用過程中,安全問題是一個十分重要的問題,因此本部分主要從管理和技術兩方面對信息資源管理中的安全風險及應對措施進行分析,并結合案例介紹對系統進行審計和評價的方法。
3 教學資源
教師注重將所講授內容體現在教學實踐本身,隨時隨處體現“信息資源管理”觀點和方法:利用知識管理理念,整合各方面知識資源,包括各種教材著作、專家渠道、國內外最新研究論文、案例資源等內容,形成資源庫。
自課程開設以來,先后使用參考過科學出版社出版孟廣均等著的《信息資源管理導論》,高等教育出版社王景光主編的《信息資源管理》,武漢大學馬費成編著的《信息資源開發利用》,北京理工大學甘仞初主編的《信息資源管理》,電子工業出版社肖明編著的《信息資源管理》等著作,以及Ricks Betty R & Gow, KAY F. Information Resource Management Cincinnati (Ohio)等國外著作。已有教材都對信息管理學科進行了全面系統的論述,但內容大都比較抽象,理論性較強,多以信息系統論為核心,和現實企業應用及我們專業特點結合不足。因此,教師在教學中,指定其中兩本為參考教材,而圍繞課程體系的內容主要來自于教師對國內外研究資料收集整理加工后形成的教案、講義,資料來源大都為排名行業前列的學術刊物、數據庫、著名專家。除了理論知識,資源庫還納入不同企業的案例,以及知識案例獲取的各種專家渠道。
4 教學方法
結合課程和中國學生特點,教師在教學中注重創新性,借鑒國內外同行的經驗,及時引入先進的教學理念和方法手段,采用整合的教學方式“課堂講授+案例分析+Leading Discussion+小組討論/作業”相結合,目的在于盡量激發學生主動學習的愿望和能力,區別于以往“高級本科生”似的研究生教育方式。
(1) 教師的課堂講授主要在于讓學生了解知識課程體系結構及關鍵知識點,特別是重點和難點,引導學生把點串成線,配合閱讀資料和案例,進而使知識面立體化。
(2) 案例分析,主要是教師通過企業渠道獲得并整理內容詳實的企業案例,把理論知識融入到企業實際應用中,加深學生對理論和實踐如何結合起來的理解,彌補學生由于條件所限無法親自參與重要的企業實踐環節的缺口。
(3) Leading Discussion是教師借鑒美國大學研究生課程教學方法所得,培養學生獨立深度研究分析能力。由于課程內容比現有教材更新,涉及范圍更廣,僅靠教材難以獲取足夠知識。教師定期提供國際上較新的研究論文,課下每位同學獨立閱讀并總結出不超過一頁紙的summary,提出2-3個針對性問題。課堂上每次輪流由不同學生主持leading discussion對論文進行分析討論,并回答問題。這種方式有助于學生開拓視野,了解國際最新動向,督促其主動學習、思考、溝通能力(這正是中國學生普遍缺乏的),還能提高專業英語閱讀理解歸納能力和閱讀速度。
(4) 小組討論/作業主要是教師提供案例內容框架及引導問題,學生分組討論不同案例(課堂或課下,視時間而定),鼓勵brain storming,以PPT形式進行課堂演示,實現知識資源共享。最后教師對各組案例分析就行評價總結。
全程采用多媒體教學,教學中始終貫穿著啟發式、引導性和參與性的理念。啟發式教學:啟發學生通過以上各種方式實現自我學習、自我教育,克服教師滿堂貫、填鴨式的教學方式,注重研究生教育和本科教育的區別。引導性:教師在教學中先引入問題,積極啟發學生主動思考,而不是被動接受灌輸;引導學生探索性閱讀,進入學術研究領域。參與性:鼓勵學生主動參與教學環節,師生互動、教學相長,調動學生學習的積極性和主動性。
5 考核
為體現課程的多學科交叉性、復合型知識能力特點,課程采用多形式考核方式,重在考察學生對企業實際問題分析、提出解決方案的能力,以及此過程中對現代IRM管理理念和知識的理解應用和滲透。在強調“開卷+閉卷”傳統考試形式基礎之上,將參與討論、案例分析、Leading Discussion、論文撰寫、企業調研、小組作業等綜合起來全面考察學生學習情況,這種“非概念記憶”的能力考核方式進一步調動了學生主動學習的積極性和創造力。
三 結言
經過多次教學實踐不斷改進,教學內容體系和方式方法得到了專家及學生的一致認可:普遍認為課程內容新穎全面,反映信息資源管理領域的最新發展和趨勢;國外資源豐富,與國際學科發展接軌;高質量案例的引入恰當充分,和實際企業應用相聯系。教師在講授中補充很多專業領域最新的知識,擴展學生知識面;注重關鍵知識點的掌握,培養學生獨立思考和判斷、分析、解決問題的能力,非常適合財經類院校研究生階段教學的特點。
在教學中,我們也注意及時發現總結問題,充分意識到不足和需要改進之處:
1 教學中很多內容都超出現有參考教材,因此需要將教學內容資源整合成更加系統全面的教材,供學生參考。
2 對于一些最新的較為抽象的內容,以及一些專業術語,還需進一步增加關聯性更強的實例,更加深入淺出的進行講解,讓學生更容易理解。
3 信息和網絡時代,知識及企業應用的更新頻率都在加速,需要及時更新資源庫以和現實世界發展保持同步,如何追蹤最新的知識資源、企業實踐和專家渠道是很大的挑戰。
信息資源管理課程是知識經濟時代新興的一門重要課程,教學體系、方法發展還不完善。在北京召開的北京高校信息資源管理專業高級研討會上,大家也一致認為信息資源管理這門課程的教材的內容和教學方法需要進一步改革。本文提出了適合財經類院校研究生的教學內容體系和教學方法設計,供開設此課程的高校教師探討,并希望能有一定的啟發借鑒作用。
參考文獻
[1] 王景光.信息資源管理[M].高等教育出版,2002.12.