時間:2023-03-20 16:18:41
序論:在您撰寫計算機大數據論文時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
大數據時代的到來,計算機信息處理技術也存在著很大風險,其中最突出的問題是計算機病毒以及惡意盜版軟件等,給用戶使用計算機產生了極大的消極影響。這些還是一些比較基礎的問題,隨著計算機技術的發展,還出現篡改數據、冒名頂替等問題,影響計算機技術服務質量,計算機信息處理技術受到了前所未有的考驗。另外,大數據時代的到來,還出現了許多新型網絡技術,針對一些繁瑣的問題能夠有效解決,提高了人們的工作效率,然而,這也在一定程度上降低了網絡的真實性,特別是在網絡交流和溝通日益緊密的前提下,導致網絡信息真假難分,不僅增加了信息搜索難度,而且致使人們無法快速獲得真實信息。因此,提高計算機信息處理技術至關重要。
2大數據時代計算機信息處理技術
2.1信息采集、加工方面
計算機信息處理技術要進行工作,首先,要采集數據信息,計算機技術都是建立在數據采集基礎之上的,數據采集主要是針對目標信息源進行實時的信息監督和控制,并將才覺得數據儲存在計算機數據庫中,為各個軟件提供信息支持,確保下一項工作順利進行;其次,對數據信息進行加工,按照用戶的要求,對數據信息進行加工;最后,將加工好的數據信系進行分類,最終傳送到用戶手中,實現數據采集、加工以及傳送目標。
2.2存儲方面
計算機存儲技術是將采集的信息儲存到計算機數據庫之中,在用戶需要某一項信息過程中,可以通過數據庫直接將數據調取出來,計算機以其儲存量大、速度快等優勢,受到人們越來越多的關注,另外,計算機技術還能夠實現長時間儲存。
2.3信息安全方面
大數據時代的到來,讓人們感受技術帶來的便捷的同時,也讓人們意識到數據信息安全對人們的重要性。因此,為了能夠提高數據信息的安全、可靠性,可以通過以下幾個方面進行:首先,建立計算機信息安全體系,加大專業技術人才的培養力度,投入資金,為構建計算機安全體系奠定堅實的基礎;其次,加大研究力度,開發信息安全技術產品。傳統信息安全技已經無法滿足大數據時代數據安全需求,為了能夠盡快改善數據安全問題,應加大研究力度,尋求更好的解決方案,有效避免數據信息受到威脅;最后,重視對重要數據的檢測,大數據時代的突出特點是數據量大,無法實現對每一個數據的檢測。因此,為了提高數據安全系數,應加強對重點數據信息的檢測,從而確保數據信息安全。
2.4信息處理技術的發展
計算機硬件具有一定局限性,在一定程度上阻礙了計算機網絡的發展,而云計算網絡能夠突破這一弊端。因此,推廣和應用云計算機網絡成為未來大數據時代計算機信息處理的主要發展趨勢。傳統計算機網絡是將硬件與網絡有機結合,抑制了計算機信息處理技術的發展,將二者分離開,促使云計算主筋形成云計算網絡,從而構建大數據信息網絡系統,推動我國社會不斷發展。
3結論
目前,國內高等院校的計算機基礎教育更多地沿用了傳統計算機教育的方法,只注重講授計算機的理論知識和操作要領,未考慮學生學習的效果。這導致學生只是記住一些概念和理論,能做基本的操作,卻很難用所學的知識靈活地解決實際問題。當前大學計算機基礎教育面臨以下4個問題:
(1)學生的計算機應用能力差異大
高等院校的學生來自全國各地,而不同地區的中小學計算機教育水平參差不齊。單一的課堂教學已無法保證所有的學生學得會、學得好,這給教學帶來了問題。
(2)教學和實驗的學時嚴重不足
目前,各個高校都在減少課時,教師只能在課堂上和實驗中加大講授的知識量,加快教學進度。當一個教師面對幾十個學生時,基礎較差的學生往往得不到教師足夠的指導和練習時間,這給輔導答疑帶來了問題。
(3)學習的結果與過程未被記錄下來
學生可以利用豐富的網絡資源鞏固課堂內容,擴大知識面,加深對知識的理解。在傳統教學中,教師往往忽視了學生的課后學習,沒有記錄學習結果與過程,這給教育過程的改進帶來了問題。
(4)目前的網絡教學系統很少區分學習個體
網絡教學系統能夠提供大量的多媒體教學資源,幫助教師進行課后輔導答疑,卻很少區分學習個體,導致缺乏個體相關的數據,從而難以提供個性化的指導,這給網絡教學系統的智能化帶來了問題。這些問題歸根結底是數據的問題,是數據沒有被有效地規劃和整合的問題。我們把與學習過程相關的大量數據收集起來,對這些數據進行分析,挖掘出有價值的信息,最后傳遞給學習者,這是一種解決計算機基礎教育所面臨問題的可行方法。
2面向計算機基礎教育的大數據
在當前知識大爆炸的時代,人們獲取知識的途徑不僅僅局限于課堂,更多的是網絡資源。當代的大學生接受新生事物更快,更愿意在特定的學習情境下去主動構建知識。因此,大學計算機基礎教育需要改革現有的教育模式,將大數據技術融入到大學計算機基礎教育中,建立與時俱進的大數據驅動的教育模式可以有效解決上述問題。在大數據時代涌現出大量的網絡教學系統,隨著這些網絡教學系統的推廣和普遍應用,使用者數量急劇增加,產生了大量的數據。數據之間可能存在某種聯系,對這些聯系進行分析和挖掘可能會找到有價值的信息。將有價值的信息展現出來,能夠幫助我們做出正確的決策。在人類社會的發展已經由動力驅動轉變為數據驅動的背景下,教育正在發生著一場新的變革,大學計算機基礎教育也面臨著類似的機遇和挑戰。通過網絡教學系統,可以更加方便地獲取和利用大學計算機基礎教育相關的各種數據
。大學計算機基礎教育涉及的數據主要有以下幾種:
(1)課件。課件是文字、聲音、圖像、動畫等素材的集合,幫助教師更加生動地講解課程內容,主要使用PPT和Flash兩種文件。
(2)視頻。視頻是將教師在課堂上的授課內容錄制下來,為學生提供課后學習的方式。學生可以在教學系統中下載或在線學習視頻內容。
(3)題目。題目主要用于測試學習效果,包括判斷題、填空題、選擇題、問答題、程序設計題等各種題型。
(4)問題。學生在學習過程中遇到的問題,通過教學系統提交給教師。這些問題反映了學習的難點,是教師在課堂上需要詳細講解的教學內容。
(5)代碼。代碼是學生做程序設計類題目時所編寫的程序代碼。學生編寫代碼的質量可以由教師評判,也可以由系統自動評判。
(6)行為。行為用來記錄學生的學習活動,如課件下載行為、視頻點播行為、作業瀏覽行為、編程行為等。這些行為能夠反映出學生的學習情況。
(7)缺陷。缺陷是學生提交的作業中包含的各種錯誤,反映了學習過程中存在的問題。對教學系統而言,這些數據是進行個性化推薦學習的參考依據;對教師而言,這些數據能夠提示教學過程中需要特別關注的地方。
(8)過程。過程是指在教學過程中收集到的一些宏觀數據,如課件學習過程、視頻學習過程、測試過程等。這些過程能夠反映出學生學習的個體差異。
3大數據驅動的新模式
在大數據時代,我們可以利用大數據技術在大量與學習相關的數據中挖掘出有價值的信息。這些信息能夠幫助學生更加科學有效地學習,較好地解決當前計算機基礎教育面臨的問題。因此,我們將大數據技術融入到大學計算機基礎教育中,提出一種大數據驅動的計算機基礎教育新模式。它是在有效規劃和整合計算機基礎教育大數據的前提下,為學生提供各種自主學習資源和服務的新模式。學生和教師在使用各種網絡教學系統時,輸入的數據和學習行為都被系統記錄下來。利用大數據技術對記錄下來的數據進行分析,挖掘出與學生學習特征相關的數據。這些數據為學生的后續學習提供個性化的推薦,規劃個性化的學習路線;向教師反饋學生的學習行為和效果,為后續教學提供個性化的推薦,幫助教師改進教學方法。以在線課程系統、在線編程系統和在線答疑系統為代表的各種網絡教學系統目前得到了廣泛的應用,這些系統本質上都是大數據驅動。實踐證明,這些系統的應用將為學生學習和教師教學提供實質性的幫助。
1)在線課程系統是課堂教學的延伸
大型開放式網絡課程MOOC是國際上流行的教學平臺。自2013年5月以來,北京大學、清華大學、復旦大學、上海交通大學等國內一流高校紛紛宣布加入MOOC,向全球提供免費的在線課程。MOOC采用云計算架構,提供大量的視頻學習資源和人機交互功能。學生提交作業后,系統能自動評判作業的質量,以評估學習效果。MOOC的出現給計算機基礎教育帶來巨大影響。MOOC解決了學生計算機應用能力差異大的問題,學生不管基礎如何,都能找到與之相應的學習內容;MOOC彌補了課堂教學學時不足的問題,學生能在課后隨時隨地找到學習資源;MOOC能夠記錄學習的結果與過程以及作業中的錯誤等,這些對于改進教學方式和調整教學重點等都有意義。
2)在線編程系統是實驗環節的補充
隨著SaaS技術(軟件即服務)的不斷成熟,出現了許多功能強大的在線編程系統。這給大學計算機基礎教育中的程序設計類課程的實驗教學
帶來了巨大的幫助。使用在線編程系統進行實驗的好處有以下幾點:
(1)教師不用在實驗室的每臺計算機中安裝軟件,學生通過瀏覽器就可以編寫程序;
(2)學生編寫的代碼都存儲在云端,能上網的地方就能練習編程,并且隨時可以修改代碼,解決了實驗教學學時不足的問題;
(3)在線編程系統主要記錄代碼和代碼編寫的過程,能夠收集實驗過程中與學習相關的數據。國外在線編程系統CodeCademy提供了一種學習編程的新方式。它的用戶群是零基礎的學習者,所以CodeCademy創設趣味性的學習環境,手把手幫助學習者了解編程的過程。它的在線編輯器能讓學習者不用尋找、下載和安裝編程環境就可以在網絡上編程。在線編程系統不僅為實驗教學提供了方便的實驗環境,還能收集大量的程序代碼和學生的編程行為,有助于分析學生的學習特點與習慣,區分學習個體,為制訂個性化學習路線提供有價值的數據。
3)在線答疑系統是課后輔導的平臺
學生在學習過程中常常會遇到很多問題,這些問題如果能及時得到解答,就能促進學生更深入地學習;反之,就會影響學生的學習效果和積極性。目前,互聯網上已經出現了許多人工解答和自動解答的系統。有代表性的是上海交通大學的遠程教育設計中心設計開發的AnswerWeb自動答疑系統,它是一個動態的問題及答案的數據庫。學生輸入關鍵詞后可以在系統已有的問題和答案數據庫中查找相關的材料。如果沒有找到答案,則會自動轉發給教師請求幫助解答。隨后,新的提問和答案將被增加到系統庫中。系統會記錄所有的問題和答案以及學生提問過程中的行為。在線答疑系統應用到大學計算機基礎教育中,解決了教師無法在課后對每位學生進行輔導答疑的問題。同時,利用大數據技術,答疑系統將學生提問和獲得解答的行為記錄下來,自動的分析這些數據,挖掘學習個體特征,為學生的后續學習提供個性化的推薦。
4結語
在大數據時代環境下,信息的獲取和選擇、信息技術的掌握應用,直接影響知識的生產、科技的創新和成果的轉化。大數據時代對高校的教學、學生的計算機應用能力提出了新的要求。產業界需求與關注點發生了重大轉變,企業關注的重點轉向數據,計算機行業正在轉變為真正的信息行業,從追求計算速度轉變為關注大數據處理能力,軟件也將從編程為主轉變為以數據為中心。學生要學會對數據的去冗分類、去粗取精,從數據中挖掘知識,要能夠把大數據變成小數據,要在不明顯增加采集成本的條件下盡可能提高數據的采集質量。要研究如何科學合理地抽樣采集數據,減少不必要的數據采集。
二、大數據時代背景下的教學策略
(一)營造適合學生全面發展的軟硬件環境信息時代的發展使得高職院校圖書館和數據中心具備了大數據的特征??茖W研究和科技創新越來越依賴于對數據的管理和利用,打造良好、適宜的軟硬件環境是提高職業院校學生信息素養的基礎。目前互聯網技術及應用普及度較高,建設智慧校園可為學生提供更多的接觸信息資源的機會。加強高職院校數據中心和網絡中心的建設力度,在依托傳統圖書館文獻存儲量的基礎上,增加館藏圖文電子數據、電子文獻與多媒體文獻,打造信息化圖書館,為學生提供多元化的信息資源與服務。加強校園社交網絡平臺的建設,利用微信等新型傳播媒介,采用主動推送的方式傳遞正能量,提供有益于學生健康成長的信息,監控、屏蔽不良信息的傳播,過濾影響學生身心健康的不良信息,構建適合高職院校學生學習的良好環境。
(二)發揮數字化圖書館在教育過程中的核心作用數字化圖書館的建設是圖書館業今后發展的主要方向。數字化圖書館也是一個科技含量較高的系統工程,高職院校各級領導應正確認識,加強資金投入,充分發揮其對教育過程的支持作用。數字化圖書館的典型特征是存儲數字化、操作計算機化、傳遞信息網絡化、信息存儲自由化和結構連接化,可與高職院校的基礎建設可以同步推進。在建設與發展過程中,教師要積極引導學生充分利用數字化信息資源。學生在使用數字化圖書館的過程中會產生一系列的行為特征數據。通過對學學習路徑和學習偏好的數據分析,根據其特點與實際量身設計合理的信息資源智慧導航,從而為學生學習新技術、新知識提供個性化的服務。
(三)加強學生創新能力的培養在知識經濟時代,創新決定著一個國家和民族的綜合實力和核心競爭力。培養具有創新能力、實踐能力的高素質技能人才,是高職院校人才培養的一個重點方向,也是高職辦學的特色及亮點。創新能力培養的關鍵是創新思維的培養,而創新思維的核心在于思維的獨特性和新穎性。在大數據時代,學生面臨眾多數據資源。教師需要對學生提供專業的指導,讓學生學會利用互聯網技術和計算機軟件工具解決實際問題,在解決問題的過程中培養創新思維。高職院校應努力營造創新教育環境,結合創新教育,大力推進素質教育。將“小發明、小創造”“大學生實踐技能展演”“大學生才藝展示”等活動納入校園文化活動中。組織學生參加各行業舉辦的職業技能大賽,實現從應試教育向素質教育的轉軌,培養實用型、創新型的復合技能人才。充分重視學生的個性發展,建立專業的師資隊伍對學生的創造發明活動給予強有力的技術指導。對于技術含量高的、有市場推廣價值的創造發明活動,要引導學生進行自主創業,帶動就業。加大創新教育課程的開發與建設力度,強化學生創新能力的培養。
(四)培養學生對信息技術的興趣與愛好興趣是最好的老師,是激發學生學習積極性的動力,是激發創新能力的必要條件。學生只有對身邊的事物發生了興趣,才會活躍思維,激發潛力。在課程設計中加入了生動、形象、貼近工作、貼近生活的典型案例,可以有效地激發學生的學習興趣,讓學生樂在其中,愉快地完成學習任務。教學實踐環節也應緊密圍繞著學生熟悉的事物、案例來開展教學。授課教師應了解信息技術在行業的實際應用狀況,根據不同專業的特點,結合學生,的知識體系結構精心準備授課內容,確定課程的重難點。在教學過程中,通過師生互動了解學生對課程內容的掌握程度,因材施教、精選案例、突出重點,從培養學生興趣與愛好入手,讓學生在輕松、愉悅的課堂教學中學習信息技術在專業領域的最新應用,了解最新的前沿學科理念,學握較新的實用技術。教師如果在教學活動中能及時、準確地解決學生在學習實踐中遇到的疑難,并指導他們完成實訓內容,將有助于學生在學習過程中獲得成就感,激發學習的積極性、主動性和創造性。教師動手實踐能力將使得更多的學生得到有效指導和幫助,實現高質量的課堂教學。
(五)探索高效教學模式根據高職人才培養目標的要求,計算機課程的教學需要與時俱進,隨著各行業大數據產業的不斷發展與應用而不斷進行調整、創新。通過對學生在校期間學習、生活的軌跡進行搜集、整理,形成基礎數據,進而分析他們的學習行為、學習喜好和思維模式,制定適合他們全面發展的教學方法,有針對性地培養和提高他們的計算機應用能力。利用各種輔助軟件,開展行之有效的教學實踐活動,讓學生在“做中學,學中做”。提高各專業學生的計算機應用操作能力,使他們掌握互聯網技術、計算機信息技術、電子商務等。以醫學影像技術專業為例,學生既要學會影像閱片操作,又要掌握最新的X線機、CT、MRI等先進檢查設備的使用與操作。如果能夠將醫學影像技術專業與計算機應用實踐教學相結合,找出兩者的學科交叉點,構建適合時展需要的復合型人才培養模式,將會起到事半功倍的作用。在大數據的背景下,各行各業都需要利用信息技術,特別是數據庫技術、大數據分析技術,用以改變生產、經營、管理、工作、生活等的方式。因此各專業的畢業生都面臨著行業對大數據的使用與開發的迫切需求。培養學生解決問題的實際操作能力,顯得尤為重要。在專業課程的教學中,通過對大數據的應用與計算機應用技術的滲透,不但能激發學生學習專業技能的積極性,而且可以引導學生形成應用計算機解決專業問題的思維模式,對他們將來適應大數據環境下工作具有積極的引導意義。以專業培養目標為基礎,合理對計算機課程進行設置與安排教學,將大數據知識、信息技術知識、計算機應用知識融入到各課程的教學中,構建適合高職類學生學習特點的高效教學模式。
(六)加強師資隊伍建設加強師資隊伍建設是提高學生計算機應用能力的關鍵。計算機應用基礎課程的教師,首先應該是計算機應用方面的專家,既能掌握扎實的理論基礎知識,又能熟練地操作計算機,善于使用相關行業軟件。在教學中能夠起到良好的操作示范作用,給予學生無形的感染力和號召力,增強學習的主動性與積極性。在實踐教學過程中,計算機任課教師不僅要與專業課教師緊密合作,整合校內已有的專業資源和信息技術資源,充分利用好大數據,而且要與行業、企業加強聯系,采取走出去、引進來的方式,讓學生在校期間就能充分接觸各種面向實際應用的信息技術產品與工具。學校要制定行之有效的師資隊伍培養計劃,緊密結合企業、行業的實際需求,建設“雙師型”教師隊伍,加強現代信息技術應用能力培訓。教師應深入企業、行業,了解企業人才需求,了解企業使用的最新應用軟件動態與進展,充分利用好企業、行業大數據資源的研究最新成果,更新知識結構,提高實踐操作水平。
1.計算機網絡安全概述。
計算機網絡安全,是指利用相關網絡管理控制與技術,確保在一個網絡環境中數據的完整性、保密性及可用性。計算機網絡安全,主要包括邏輯安全與物理安全兩個方面,其中,邏輯安全包括數據的保密性、完整性及可用性,防止沒有經過授權對數據進行隨意篡改或破壞的行為;物理安全包括相關設備與設施在受到物理保護的條件下保護設備上的數據免于丟失、破壞。
2.計算機網絡存在的主要安全問題。
目前,計算機已經廣泛應用于各行各業,人們對計算機網絡的認識與利用水平也顯著提升,辦公、社交、生活等方方面面都離不開計算機網絡。計算機網絡在豐富和改變人們生活的同時,其存在的安全問題也不得不讓人們警醒,經過筆者梳理,計算機網絡安全問題主要存在以下幾個方面:
1)網絡病毒所導致的安全問題。
在計算機網絡技術快速發展的過程中,也出現了越來越多、感染力越來越強的新病毒,它們無時無刻地影響著計算機網絡的安全。由于計算機網絡病毒具有復制性,能夠感染其他程序和軟件,因此,一旦計算機中了病毒,其所運行的每一步都將是危險的,都會存在讓病毒也隨之運行并產生破壞行為,然后應用程序被破壞,機密數據被盜用或被破壞,甚至讓整個計算機系統癱瘓。
2)人為操作失誤所導致的安全問題。
在人們進行計算機相關操作過程中,人為操作失誤可能會引起計算機的安全漏洞,或者泄露了某些重要的信息,而這些信息一旦被不發分子所利用,便會造成難以挽回的損失。
3)網絡黑客攻擊所導致的安全問題。
在大數據時代下,網絡黑客對計算機網絡的攻擊具有更隱蔽、破壞性更強的特點。由于在大數據時代下,網絡黑客通過非正常手段竊取到某一重要數據時,一旦其利用這些數據進行非法行為時便會引起巨大的波及。同時,在海量的數據中,難以及時識別網絡黑客的攻擊行為,對于計算機網絡安全而言是一種嚴重的威脅。
4)網絡管理不到位所導致的安全問題。
在網絡安全維護中,網絡安全管理是非常重要的環節,但是目前很多使用計算機的個人乃至企業、政府部門并沒有對網絡安全管理引起足夠的重視,從事使得計算機網絡的安全受到各種威脅,最終導致大量的計算機網絡安全事件頻繁發生。五是,網絡系統自身的漏洞所導致的安全問題。理論上而言,一切計算機網絡系統都存在某些漏洞。同時,在用戶使用各類程序、硬件過程中由于人為疏忽也會形成一些網絡系統漏洞。二者相比,后者的破壞性常常是巨大的,很多不法分子通過非法途徑給用戶造成計算機系統漏洞,進而竊取用戶信息,給用戶造成巨大的損失。
二、大數據時代下的計算機網絡安全防范對策
1.加強病毒治理及防范工作。
在大數據時代,計算機病毒的種類與數量與日俱增,對其進行治理與防范是較為困難的。在對計算機病毒進行治理與防范時,筆者認為最重要的是防范,這種防范是一種主動的、積極的治理,可以通過加強計算機防火墻部署來提高網絡環境的安全性,將那些不穩定的、危險的網絡因素隔離在外,進而實現對網絡環境的安全保護。同時,計算機使用者樹立正確的病毒防范意識,在計算機日常使用中,能夠定期利用殺毒軟件對所使用的計算機網絡環境進行殺毒,并更新病毒樣本庫,進而確保對計算機網絡的掃描能及時識別計算機病毒并進行及時的處理。
2.加強黑客防范工作。
隱藏在大數據背后的網絡黑客一旦實施其不法行為,常常會產生巨大的安全問題,因此,為了防范計算機網絡安全,應當積極整合大數據的海量信息優勢,建立科學的網絡黑客防范攻擊的模型,以此來提升識別網絡黑客的反應速度。通過加強計算機網絡的內外網的割離、加強防火墻配置,能夠有效降低黑客攻擊的可能性。同時,還可以大力推廣數字認證技術,加強對訪問數據的有效控制,并合理認證,有效避免非法目的用戶的非法訪問,進而提升對網絡安全的有效保護。
3.加強網絡安全管理。
使用計算機的個人及機構,需要從思想上高度重視網絡安全管理的重要性,在熟悉大數據的特征與性能的基礎上采取安全的管理措施,時常關注網絡安全管理,從技術上給予網絡安全保障的同時,還需要通過有效的網絡安全管理來實現大數據時代下計算機網絡安全的防范目的。對于機構而言,需要從宏觀上認識到網絡安全管理的重要性,并建立動態的、有序的、系統的管理規章,依托于云計算技術構建一個更加高級的智慧平臺來加強網絡安全的防范,進而確保網絡安全。對于個人而言,需要從主觀上認識到網絡安全的重要行,在進行計算機操作中,要養成規范化的、文明的使用計算機網絡的習慣,尤其是對于一些釣魚網站、非法鏈接,要從主觀上認識到其危害,并做自我做起,將網絡安全問題盡可能消滅,不傳播有安全隱患的信息或鏈接。
4.加強網絡系統漏洞的修復工作。
大數據必將給教育帶來巨大的改變,曾經依靠經驗和靈感的授課過程,將被以數據分析為主的決策分析所代替。而計算機教學既是大數據技術的傳播載體,更是最應率先應用大數據技術的課程。無論如何,大數據已經就在我們眼前,已經悄然改變著教學過程,也必將深度改變學校的計算機教育模式。
(一)計算機教學內容的變化
隨著大數據技術的發展和大數據分析的成熟,大數據技術及應用必然會成為各高校重要課程?,F在,美國的學校已經開設相關課程,比如,大數據分析統計基礎、大數據分布式計算、大數據挖掘與機器學習等。國內一些高校也正在嘗試開設大數據課程,幫助學生了解大數據,學數據分析。下一步,大數據基礎、大數據分析、大數據處理的核心技術等等,必將成為計算機專業的必學內容,也會成為高校重要的基礎課程。另外,計算機智能教學系統和教育測評軟件將更多地使用在教學中,以記錄學生的學習軌跡。而計算機專業的教師也必須熟練掌握大數據技術和分析方法。
(二)計算機教學思維的變化
原來的計算機教學基本是灌輸式教學,老師教授的是計算機基礎知識、C語言編程的模式、數據庫的基本架構,等等。大數據和互聯網的發展必然會改變這種授課方式,使知識的接受方式呈現多元化傾向。隨著移動互聯的發展,學生可以隨時隨地通過互聯網更便捷的獲取學習內容。而課堂上單純的照本宣科、按部就班將不能吸引學生的注意力。因此,教師必須轉變教學思維,以更多的案例和互動式教學,引導學生去尋找解決問題的辦法,尋找“芝麻開門”的鑰匙,只有如此才能讓學生有興趣待在課堂。同時,大數據帶來的將是對海量教學案例的數據分析,讓教師對計算機教學的難點及教授方法優劣有了更加清晰的認識,不必依靠教學經驗去判斷教學效果,完全可以駕輕就熟地進行互動教學,啟發學生尋找最優解決方案,將是大數據時代下計算機教學的突出特點,這是對計算機專業教學思維帶來的革命性變化。
(三)計算機教學模式的變化
目前,計算機教學主要模式是備課—教授—上機—測試,教師主要的精力放在了課前備課。而大數據技術的應用,將會讓教師把更多的精力放在課后分析上,形成“備課—教授—上機—測試—數據分析—改進”的模式。在這個模式中,課后的數據分析將是整個教學過程的關鍵環節。通過大數據分析,可以對一個班的學生進行整體學習行為評價,可以對學生上機測試情況進行細化分析,可以對每個學生的學習習慣進行學習評估,分析學生的學習中偏好、難點以及共同點等,從而得出學習過程中的規律,改進教學方式,提高教學質量。
(四)個性化教學的深入開展
大數據技術的發展,使建立覆蓋學生學習全過程、全要素的信息庫成為可能,學生大量的試卷、課堂表現留存,學生的學習經歷及成長軌跡,學生的家庭情況等等,都將被涵蓋在大數據分析中。另外,前述的計算機智能教學系統和教育測評軟件,將詳細記錄學生每次答題的背景、過程和結果。這些信息讓教學分析變得更加容易,教師可以利用數據挖掘的關聯分析和演變分析等功能,依靠學生的某些學習特征,比如答題持續時間,具體回答步驟和內容(可以細化到每次擊鍵和每個筆劃),答對的要素和答錯的要素等等,在學生管理數據庫中挖掘有價值的數據,并分析學生的日常行為,研究各種行為的內在聯系,來據此形成針對學生個性化的教學策略,以幫助學生在學習方面取得更大的突破。
二、小結
大數據背景下的機器算法
專業
計算機科學與技術
學生姓名
楊宇瀟
學號
181719251864
一、 選題的背景、研究現狀與意義
為什么大數據分析很重要?大數據分析可幫助組織利用其數據并使用它來識別新的機會。反過來,這將導致更明智的業務移動,更有效的運營,更高的利潤和更快樂的客戶。
在許多早期的互聯網和技術公司的支持下,大數據在2000年代初的數據熱潮期間出現。有史以來第一次,軟件和硬件功能是消費者產生的大量非結構化信息。搜索引擎,移動設備和工業機械等新技術可提供公司可以處理并持續增長的數據。隨著可以收集的天文數據數量的增長,很明顯,傳統數據技術(例如數據倉庫和關系數據庫)不適合與大量非結構化數據一起使用。 Apache軟件基金會啟動了第一個大數據創新項目。最重要的貢獻來自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復雜數據準備和ETL的旗艦,可以為許多數據存儲或分析環境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發)通常用于大容量計算任務。這些任務通常是批處理ETL和ML工作負載,但與Apache Kafka等技術結合使用。
隨著數據呈指數級增長,企業必須不斷擴展其基礎架構以最大化其數據的經濟價值。在大數據的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產系統非常昂貴且效率低下。要使用大數據,您還需要適當的人員和軟件技能,以及用于處理數據和查詢速度的硬件。協調所有內容同時運行是一項艱巨的任務,許多大數據項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規模的公司都可以通過單擊幾下立即訪問復雜的基礎架構和技術。在這里,云提供了強大的基礎架構,使企業能夠勝過現有系統。
二、 擬研究的主要內容(提綱)和預期目標
隨著行業中數據量的爆炸性增長,大數據的概念越來越受到關注。 由于大數據的大,復雜和快速變化的性質,許多用于小數據的傳統機器學習算法不再適用于大數據環境中的應用程序問題。 因此,在大數據環境下研究機器學習算法已成為學術界和業界的普遍關注。 本文主要討論和總結用于處理大數據的機器學習算法的研究現狀。 另外,由于并行處理是處理大數據的主要方法,因此我們介紹了一些并行算法,介紹了大數據環境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數據量大的情況下算法和模型的關系,同時也會探討大部分細分行業數據量不大不小的情況下算法的關系。
三、 擬采用的研究方法(思路、技術路線、可行性分析論證等)
1.視覺分析。大數據分析用戶包括大數據分析專業人士和一般用戶,但是大數據分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數據的特征,并像閱讀照片的讀者一樣容易接受。 2.數據挖掘算法。大數據分析的理論中心是數據挖掘算法。不同的數據挖掘算法依賴于不同的數據類型和格式來更科學地表征數據本身。由于它們被全世界的統計學家所公認,因此各種統計方法(稱為真值)可以深入到數據中并挖掘公認的值。另一方面是這些數據挖掘算法可以更快地處理大數據。如果該算法需要花費幾年時間才能得出結論,那么大數據的價值是未知的。 3.預測分析。大數據分析的最后一個應用領域是預測分析,發現大數據功能,科學地建立模型以及通過模型吸收新數據以預測未來數據。 4.語義引擎。非結構化數據的多樣化為數據分析提出了新的挑戰。您需要一套工具來分析和調整數據。語義引擎必須設計有足夠的人工智能,以主動從數據中提取信息。 5.數據質量和數據管理。大數據分析是數據質量和數據管理的組成部分。高質量的數據和有效的數據管理確保了分析結果在學術研究和商業應用中的可靠性和價值。大數據分析的基礎是前五個方面。當然,如果您更深入地研究大數據分析,則還有更多特征,更深入,更專業的大數據分析方法。
四、 論文(設計)的工作進度安排
2020.03.18-2020.03.20 明確論文內容,進行相關論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。
2020.04.28-2020.04.30 :設計實驗。
2020.05.01-2020.05.07 :開展實驗。
2020.05.08-2020.05.15 :準備中期檢查。
2020.05.16-2020.05.23:根據中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。
2020.05.29-2020.06.26 :論文修改完善。
五、 參考文獻(不少于5篇)
1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數據分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應用,2012.被引量:273.
2 . 喻國明. 大數據分析下的中國社會輿情:總體態勢與結構性特征——基于百度熱搜詞(2009—2 012)的輿情模型構建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數據分析與情報分析關系辨析.中國圖書館學報,2014.被引量:16.
4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數據分析的分布式molap技術 .軟件學報,2014.被引量:6.
5 . 王德文,孫志偉.電力用戶側大數據分析與并行負荷預測 .中國電機工程學報,2015.被引量:19.
6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數據分析的輸變電設備狀態數據異常檢測方法 .中國電機工程學報,2015.被引量:8.
7 . 喻國明. 呼喚“社會最大公約數”:2012年社會輿情運行態勢研究——基于百度熱搜詞的大 數據分析.編輯之友,2013.被引量:4.
六、指導教師意見
簽字: 年 月 日
七、學院院長意見及簽字
1.1大數據的發展
通過對大數據的匯集、智能分析和挖掘技術,發現數據中的潛在價值信息,幫助人們做出正確決策,這就是大數據產業的利益。國外大數據的起步比較早,比較成功的大數據應用案例有:商業龍頭沃爾瑪公司通過對消費者的購物數據進行分析,了解顧客的行為喜好,對超市的商品結構進行搭配重置以增加銷售額;亞馬遜公司通過大數據構建自己的推薦系統,每年可以靠此多收益20%;奧巴馬通過大數據分析系統進行數據挖掘,用科學的手段獲取選票、募集資金,贏得了總統競選的勝利。相比于國外,國內的大數據研究和應用還處于起步和發展中的階段,比較成功的案例有:淘寶數據魔方平臺,通過大數據,為買家量身打造完善的購物體驗產品;新浪微博大數據產品,通過大量的社交數據,創造不同的社會經濟價值等。
1.2云計算的發展
云計算可以像電力資源一樣提供彈性的按需服務,事實上它是集合了一系列的服務提供給用戶。云計算的核心可分為三個層次,分別為基礎設施層、平臺層、應用層,如圖2所示。云計算將基礎設施、軟件運行環境、應用程序抽象成服務,具有可靠性高、可用性強、規??缮炜s等特點,滿足了不同企業的發展需求,各個云服務提供商根據各自服務對象的差別分別開發了各具特色的云服務。(1)基礎設施即服務層基礎設施即服務(InfrastructureasaService,IaaS)層通過部署硬件基礎設施對外提供服務,用戶可以根據各自的需求購買虛擬或實體的計算、存儲、網絡等資源。用戶可以在購買的空間內部署和運行軟件,包括操作系統和應用程序。消費者不能管理或控制任何云計算基礎設施,但能控制操作系統的選擇、存儲空間、部署的應用,也有可能獲得有限制的網絡組件(如防火墻、負載均衡器等)的控制。云服務提供商為了使硬件資源得到更有效的利用,引入了Xen、KVM、VMware等虛擬化技術,使得云服務商可以提供更個性化的IaaS服務。亞馬遜彈性云計算(AmazonElasticComputeCloud,AmazonEC2)是亞馬遜Web服務產品之一,AmazonEC2利用其全球性的數據中心網絡,為客戶提供虛擬主機服務,讓使用者可以租用云服務運行所需應用的系統。(2)平臺即服務層平臺即服務(PlatformasaService,PaaS)層是指云計算應用程序開發和部署的平臺,包括應用設計、應用開發、應用測試和應用托管,都作為一種服務提供給客戶。開發者只需要上傳代碼和數據就可以使用云服務,而無需關注底層的具體實現方式和管理模式。鑒于PaaS平臺的重要意義,國內外廠商根據各自的戰略提出了相應的PaaS平臺,國外的如GoogleAppEngine(GAE),通過GAE,即使在重載和數據量極大的情況下,也可以輕松構建能安全運行的應用程序。國內也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)軟件即服務層軟件即服務(SoftasaService,SaaS)層是為云計算終端用戶提供基于互聯網軟件應用服務的平臺。隨著Web服務、HTML5、AJAX、Mashup等技術的成熟與標準化,SaaS應用近年來發展迅速,典型的SaaS應用包括GoogleApps、SalesforceCRM等。國外云計算平臺比較成功的應用案例有:亞馬遜電子商務網站根據用戶的購買行為和搜索技術搭建Hadoop集群,構建推薦系統;Twitter社交網站搭建Hadoop分布式系統用于用戶關聯的建立。國內云計算平臺的成功案例有:阿里巴巴目前整個集群達到1700個節點,數據容量達到24.3PB,并且以每天255TB的速率不斷攀升;2013年,華為推出國內首個運營云平臺,目前為止與該平臺簽訂協議的ISV有3000多家。
1.3云計算相關技術
(1)分布式文件系統分布式文件系統(GoogleFileSystem,GFS)[3]是Google公司針對云計算過程處理海量數據而專門設計的。一個GFS集群由一個主節點和多個從節點組成,用戶可以通過客戶端訪問文件系統,進行正常的文件處理工作。在云計算中,海量數據文件被分割成多個固定大小的數據塊,這些數據塊被自動分配到不同的從節點存儲,并會在多個節點進行備份存儲,以免數據丟失。主服務器管理文件系統記錄文件的各種屬性,包括文件名、訪問控制權限、文件存儲塊映射、塊物理信息等數據。正是通過這個表,文件系統可以準確地找到文件存儲的位置,避免數據丟失,保證數據安全。圖3是GFS的體系結構示意,每一個節點都是普通的Linux服務器,GFS的工作就是協調成百上千的服務器為各種應用提供服務。(2)分布式并行數據庫BigTableBigTable[4]是一個為管理大規模結構化數據而設計的分布式存儲系統,可以擴展到PB級數據和上千臺服務器。很多Google的項目使用BigTable存儲數據,這些應用對BigTable提出了不同的挑戰,比如對數據規模的要求、對時延的要求。BigTable能滿足這些多變的要求,為這些產品成功地提供了靈活、高性能的存儲解決方案。BigTable采用的鍵是三維的,分別是行鍵(RowKey)、列鍵(ColumnKey)和時間戳(Timestamp)。行鍵和列鍵都是字節串,時間戳是64位整型;值是一個字節串,可以用(row:string,column:string,time:int64)string來表示一條鍵值對記錄。(3)分布式計算框架MapReduceMapReduce[5]是Google公司提出的大數據技術計算框架,被廣泛應用于數據挖掘、海量數據處理以及機器學習等領域,由于其并行化處理數據的強大能力,越來越多的廠商根據MapReduce思想開發了各自的云計算平臺,其中以Apache公司的Hadoop最為典型。MapReduce由Map和Reduce兩個階段組成。用戶只需要編寫簡單的map()和reduce()函數就可以完成復雜分布式程序設計,而不用了解計算框架的底層實現。MapReduce的數據分析流程如圖4所示。分布在不同服務器節點上的海量數據首先通過split()函數被拆分成Key/Value鍵值對,map()函數以該鍵值對為輸入,將該鍵值對進行函數處理,產生一系列的中間結果并存入磁盤。MapReduce的中間過程shuffle()將所有具有相同Key值的鍵值對傳遞給Reduce環節,Reduce會收集中間結果,并將相同的Value值合并,完成所有工作后將結果輸出給用戶。MapReduce是一個并行的計算框架,主要體現在不同的服務器節點同時啟動相同的工作,并且在每個獨立的服務器節點上又可以啟動多個map()、reduce()并行計算。
2基于云計算的大數據處理
目前大數據處理的基本流程如圖5所示,整個流程經過數據源的采集,用不同的方式進行處理和加工,形成標準的格式,存儲下來;然后用合適的數據計算處理方式將數據推送到數據分析和挖掘平臺,通過有效的數據分析和挖掘手段,找出大數據中有價值的信息;最后通過可視化技術將信息展現給人們。
2.1數據采集存儲
大數據具有不同結構的數據(包括結構、半結構、非結構),針對不同類型的數據,在進行云計算的分布采集時,需要選擇不同的數據采集方式收集數據,這也是大數據處理中最基礎的一步。采集到的數據并不是都適合推送到后面的平臺,需要對其進一步處理,例如來源不同的數據,需要對其進行加載合并;數據存在噪聲或者干擾點的,需要對其進行“清洗”和“去噪”等操作,從而保障數據的有效性;數據的格式或者量綱不統一的,需要對其進行標準化等轉換處理;最后處理生成的數據,通過特定的數據庫,如NoSQL數據(Google的BigTable,Amazon的Dynamo)進行存儲,方便進行下一步的數據讀取。由于傳統的數據倉庫無法適應大數據的存儲要求,目前基于云計算的數據倉庫都是采用列式存儲。列式存儲的數據具有相同的數據類型,可以大大提高數據的壓縮率,例如華為的云存儲服務MOS(MassiveObjectService)的數據持久性高達99.9%,同時提供高效率的端到端保障。
2.2數據計算模式
這一環節需要根據處理的數據類型和既定目標,選擇合適的計算模型處理數據。由于數據量的龐大,會消耗大量的計算資源,因此,傳統的計算技術很難使用大數據的環境條件,取而代之的是分而治之的分布式計算模式,具有代表性的幾種計算模式的特點見表1。采用批處理方式計算的Hadoop平臺,例如,Facebook擁有全球最大規模的Hadoop集群,集群機器目前超過3000臺,CPU核心更是超過30000個,可以存儲的數據量能夠達到驚人的40PB;采用流處理方式計算的Storm平臺分布式計算的時延比Hadoop更小;實時處理方式計算的Spark是一種基于內存的計算模式,例如,Yahoo運用Spark技術在廣告營銷中實時尋找目標用戶,目前在Yahoo部署的Spark集群有112臺節點和9.2TB內存;交互處理方式計算的Dremel在處理PB級別的數據時耗時可以縮短至秒級,并且無需大量的并發。
2.3數據分析挖掘
數據分析挖掘環節是從海量數據中發現隱藏規律和有價值信息的過程,這個環節是大數據處理流程最為有價值和核心的部分,傳統的數據分析方法有機器學習、商業智能等。傳統的數據挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云計算環境下都得到了大幅度的并行優化,在大數據的背景下,計算速度得到了很大程度的提升。現在新興的深度學習是原始機器學習的一個新領域,動機是在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,這種新的數據分析挖掘技術已經在計算機視覺、語音識別、自然語言處理等領域有了成功的應用。
2.4數據解釋展現
將挖掘出來的復雜信息進行數據解釋和展現是整個大數據處理流程的最后一個環節,數據分析的結果需要向客戶進行恰當的展現。與傳統的數據輸出和文本展示等方式不同,現在絕大部分的企業都通過引進“數據可視化”技術來展示大數據分析的結果信息,這種方式以圖像、動畫等方式,形象地向客戶展現數據處理分析的結果,也容易被客戶理解和接受,更為先進的是,現在逐步形成的“交互式可視化技術”,大大地方便了數據與人之間的“親密交流”。目前面向大數據主流應用的可視化技術見表2。
3大數據和云計算的未來挑戰
大數據需要超大存儲容量的計算能力,云計算作為一種新的計算模式,為大數據的應用研究提供了技術支持,大數據和云計算的完美結合,相得益彰,發揮了各自的最大優勢,為社會創造了巨大的價值。雖然國內大數據和云計算的研究還是處于初步階段,但隨著研究的不斷進行,所面臨的問題也越來越多。在大數據向前不斷邁進的階段里,如何讓我們對大數據的研究朝著有利于全人類的方向發展成為了重中之重。
3.1重要戰略資源
在這個信息社會里,大數據將會成為眾多企業甚至是國家層面的重要戰略資源。國家層面要將大數據上升為國家戰略。奧巴馬在2012年3月將“大數據戰略”上升為最高國策,像陸權、海權、空權一樣,將數據的占有和控制作為重要的國家核心能力。大數據資源也會成為各種機構和企業的重要資產以及提升企業社會競爭力的有力武器。在大數據市場里,客戶的各種數據信息都會為企業創造價值,也會在促進消費水平、提高廣告效應等方面扮演重要的角色。
3.2數據隱私安全
大數據如果運用得當,可以有效地幫助相關領域做出幫助和決策,但若這些數據被泄露和竊取,隨之而來的將是個人信息及財產的安全問題得不到保障。2011年索尼公司遭到黑客攻擊,造成一億份客戶資料泄露,經濟虧損約1.71億美元。為了解決大數據的數據隱私安全問題,Roy等在2010年提出了一種隱私保護系統,將信息流控制和差分隱私保護技術融入到云計算平臺中,防止MapReduce計算過程中的數據泄露問題。在數據更新飛速的情況下,如何維護數據的隱私安全成為大數據時代研究的重點方向。
3.3智慧城市
人口的增長給城市交通、醫療、建筑等各方面帶來了不小的壓力,智慧城市就是依靠大數據和云計算技術,實現城市高效的管理、便捷的民生服務、可持續的產業發展。在剛剛結束的“兩會”的政府工作報告中,總理也特意強調了智慧城市發展的重要性,目前國家智慧城市試點已遍布全國各地,多達409個。智慧安防、智慧交通、智慧醫療等都是智慧城市應用領域。智慧城市的建設也趨使大數據人才的培養。據預測,到2015年,大數據將會出現約100萬的人才缺口,全球將新增440萬個與大數據相關的工作崗位來填補這個空缺。
3.4能源消耗