時間:2023-09-05 16:32:12
序論:在您撰寫數據分析分析技術時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
關鍵詞 數據挖掘技術 警務系統 數據分析 應用
中圖分類號:TP311 文獻標識碼:A
1數據挖掘技術在警務數據分析系統中的重要性
警務系統由于工作的特點,要不斷地接受外來數據和有序存儲舊數據,這就對警務系統的數據處理系統有越來越高的要求,傳統的警務數據處理系統在信息量巨大的現今社會已經不能再有效的完善數據庫的運行,這就需要新型的數據處理系統接替工作。新型的數據處理系統在案件的信息提取、視頻分析等方面都應該有卓越的性能,將對案情有幫助的信息從大數據庫中有效的提取出來。數據挖掘技術是一項在能夠提高警務系統在數據的提取和挖掘效率的一項技術,能在短時間內將案件中的數據作為數據源,將其進行分析和建模,從而從這些數據中獲得有力的線索。
2目前警務系統特點
現今的警務系統是跟隨時代不斷發展的一個工作效率高、工作素質強的組織系統,有案件處理速度快、案件分析效率高的特點。這些特點,都需要警務系統中數據處理系統的有效應用,通過對數據的處理分析、檢查對比得出較有價值的案件線索,從而提高效率。警務系統的正常運行離不開數據處理系統,而數據挖掘技術更是數據處理系統的重要組成部分,它確保了整個系統的運行速度,對案件的偵查有促進作用。
3構建警務系統數據存儲器
基于警務系統的數據特點,警務系統應該建立一個高速運行的警務系統數據存儲器?!皵祿鎯ζ鳌痹诮Y構上分為三個部分,分別是關系系統、OLAP服務器以及客戶處理系統。這三個部分的作用效果如下:
3.1關系系統
關系系統是這三個組成部分的基礎部分,這個系統負責對系統中的數據進行整理和提取、刷新,將數據在整個系統中的存儲位置有序的排列好,防止數據丟失和數據殘缺的現象發生。關系系統在運行的過程中通過警務系統不斷的收集新的信息,將其整理保存,始終將數據系統中的有效信息得到較完好的保護。
3.2 OLAP服務器
OLAP是聯機處理的縮寫,是將多角度的信息共享并由一個關鍵的出發點而聯機進行數據處理分析的一個軟件技術,在警務系統中可將需要處理的信息進行聯機處理分析,將信息較快的處理出來,得到有效的結論。
3.3客戶處理系統
客戶處理系統是將數據進行分析處理以及檢索和報告的一個系統,通過對數據之間的聯系將數據的信息整理和挖掘出來,形成有用的線索,供警務系統人員進行案件的偵破和處理,是數據存儲器的重要部分,特別是數據挖掘技術的應用時整個系統的運作重心。
4數據挖掘技術
數據挖掘技術是將數據庫中的數據進行采集、集成以及分析的一項技術,其應用到警務系統中可以對案件相關信息進行檢索和分析,應用了多維數據分析處理及關聯規則的應用、聚類分析方法的實際處理等數據挖掘分析處理模式將警務系統中的數據有效的聯系起來,形成一個較為完整的數據挖掘模式。
在挖掘出境數據時,數據挖掘技術的決策樹技術有效應用,與縣贏得算法技術相互應,將數據較為完整的從警務系統中巨大的信息庫中挖掘出來,實現了數據挖掘的分級處理模式的有效應用。
5數據挖掘技術在現代警務系統中的應用
在警務系統中,數據挖掘系統在案件的相關數據中整理生成了一個多維數據模型,使信息可視化、將案件信息的關系更加清楚的展現在警務系統的工作人員面前,通過多角度、多方面的分析和挖掘,將系統中的有用信息全部呈現在報告中,實現了信息的有效用。
6結語
警務系統中的信息有多樣化、復雜化、信息量巨大的特點,使用傳統的數據庫是不能按照現代的社會發展速度生存的,對數據進行高效的分析處理和采集,是現代警務數據處理系統應該具有的一項特點。在數據處理速度快的前提下,數據處理系統的管理能力和聯系能力也應該是突出的,本文中提到的數據挖掘技術就是解決數據處理問題的有效解決辦法,其運行通過對數據的建模、分析、采集等手段強化了數據處理系統的能力,為警務系統中案件處理效率的提升做出了一定的貢獻。目前社會的高速發展離不開大數據的支持,大數據時代對數據的處理系統要求越來越高,數據挖掘技術近些年在警務信息系統中的引用為警務系統的發展提供了技術上的有效支持,警務系統未來的發展肯定也離不開數據的有效處理工作,數據挖掘系統在未來的警務數據分析系統中也會有不斷地改善和提高。
參考文獻
[1] 劉敏,朱鵬,方有軒.面向市場分析人員的經分模型庫的設計與實現[J].電腦與電信,2016(09) .
[關鍵詞]數據倉庫聯機分析處理多維數據分析
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)1110077-01
一、引言
聯機分析處理(Online Analytical Processing,OLAP)的概念最早是由關系數據庫之父E.F.Codd于1993年提出的,OLAP是針對特定問題的聯機數據訪問和分析。通過對信息(維數據)的多種可能的觀察形式進行快速、穩定一致和交互性的存取,允許管理決策人員對數據進行深入地觀察。OLAP的目標是滿足決策支持或多維環境特定的查詢和報表需求,它的技術核心是“維”這個概念,因此OLAP也可以說是多維數據分析工具的集合。
二、OLAP的多維數據結構
數據在多維空間中的分布總是稀疏的、不均勻的。在事件發生的位置,數據聚合在一起,其密度很大。因此,OLAP系統的開發者要設法解決多維數據空間的數據稀疏和數據聚合問題。事實上,有許多方法可以構造多維數據。
(一)超立方結構。超立方結構指用三維或更多的維數來描述一個對象,每個維彼此垂直。數據的測量值發生在維的交叉點上,數據空間的各個部分都有相同的維屬性。
這種結構可應用在多維數據庫和面向關系數據庫的OLAP系統中,其主要特點是簡化終端用戶的操作。超立方結構有一種變形,即收縮超立方結構。這種結構的數據密度更大,數據的維數更少,并可加入額外的分析維。
(二)多立方結構。在多立方結構中,將大的數據結構分成多個多維結構。這些多維結構是大數據維數的子集,面向某一特定應用對維進行分割,即將超立方結構變為子立方結構。它具有很強的靈活性,提高了數據的分析效率。
一般來說,多立方結構靈活性較大,但超立方結構更易于理解。超立方結構可以提供高水平的報告和多維視圖。多立方結構具有良好的視圖翻轉性和靈活性。多立方結構是存儲稀疏矩陣的一個更有效方法,并能減少計算量。因此,復雜的系統及預先建立的通用應用傾向于使用多立方結構,以使數據結構能更好地得到調整,滿足常用的應用需求。
許多產品結合了上述兩種結構,它們的數據物理結構是多立方結構,但卻利用超立方結構來進行計算,結合了超立方結構的簡化性和多立方結構的旋轉存儲特性。
三、OLAP的多維數據分析
多維數據分析是指對以多維形式組織起來的數據采取切片、切塊、旋轉和鉆取等各種分析動作,以求剖析數據,使最終用戶能從多個角度、多側面地觀察數據倉庫中的數據,從而深入地了解包含在數據中的信息、內涵。多維分析方式迎合了人們的思維模式,因:
(一)切片。定義1:在多維數組的某一維上選定一維成員的動作成為切片,即在多維數組(維1、維2、....維n,變量)中選一維:維i,并取其一維成員(設為“維成員vi”),所得的多維數組的子集(維1,...維成員vi,...,維n,變量)稱為在維i上的一個切片。
按照定義1,一次切片一定是原來的維數減1。所以,所得的切片并不一定是二維的“平面”,其維數取決于原來的多維數據的維數,這樣的切片定義不通俗易懂。下面給出另一個比較直觀的定義。
定義2:選定多維數組的一個二維子集的動作叫做切片,既選定多維數組(維1、維2、....維n,變量)中的兩個維:維i和維j,在這兩個維上取某一區間或者任意維成員,而將其余的維都取定一個維成員,則得到的就是多維數組在維i和維j上的一個二維子集,稱這個二維子集為多維數組在維i和維j上的一個切片,表示為(維i和維j,變量)。
按照定義2,不管原來的維數有多少,數據切片的結果一定是一個二維的“平面”。從另一個角度來講,切片就是在某個或某些維上選定一個維成員,而在某兩個維上取一定區間的維成員或全部維成員。從定義2可知:
1.一個多維數組的切片最終是由該數組中除切片所在平面的兩個維之外的其它維的成員值確定的。
2.維是觀察數據的角度,那么切片的作用或結果就是舍棄一些觀察角度,使人們能在兩個維上來集中觀察數據,因為人的空間想象力有限,所以,對于維數較多的多維數據空間,進行數據切片是十分有意義的。比照定義1,我們可以將切片的這兩個定義聯系起來,對于一個n維數組,按定義1進行的n-2切片的結果,就必定對應于按定義2進行的某一次切片的結果。
(二)切塊。定義1:在多維數組的某一維上選定某一區間的維成員的動作稱為切塊,即限制多維數組在某一維的取值區間。顯然,當這一區間只取一個維成員時,即得到一個切片。
定義2:選定多維數組的一個三維子集的動作稱為切塊,即選定多維數組(維1、維2、....維n,變量)中的三個維:維i、維j、維r,在這三個維上取某一區間或任意的維成員,而將其余的維都取定一個維成員,則得到的就是多維數組在維i、維j、維r上的三維子集,我們稱這個三維子集為多維數組在維i、維j、維r上的一個切塊,表示為(維i、維j、維r,變量)。切塊與切片的作用與目的是相似的。
(三)旋轉。旋轉既是改變一個報告或者頁面的維方向。例如:旋轉可能包含了交換行與列;或是把某一個行維移到列維,或是把頁面顯示中的一個維和頁面外的維進行交換(令其成為新的行或者列的一個)。
(四)鉆取。
鉆取處理是使用戶在數據倉庫的多層數據中,能夠通過導航信息而獲得更多的細節性數據,鉆取一般是指向下鉆取。大多數的OLAP工具可以讓用戶鉆取至一個數據集中有更好細節描述的數據層,而更完整的工具可讓用戶隨處鉆取,即除一般往下鉆取外,隨處鉆取還包括向上鉆取和交叉鉆取。
(五)多視圖模式。人們發現,獲取相同的信息,圖形顯示所帶來的直觀性有時是簡單的數據表所無法提供的。一個OLAP系統,應當采取多種不同的格式顯示數據,使用戶能夠獲得最佳的觀察數據的視角。
四、結語
隨著數據倉庫的發展,OLAP也得到了迅猛的發展。數據倉庫側重于存儲和管理面向決策主題的數據,而OLAP則側重于數據倉庫中的數據分析,并將其轉換成輔助決策信息。OLAP的一個重要特點是多維數據分析,這與數據倉庫的多維數據組織正好形成相互結合、相互補充的關系。將有助于我們解決數據處理中的復雜問題。
參考文獻:
[1]彭木根,數據倉庫技術與實現,電子工業出版社,2002.9.
1計算機大數據分析中云計算技術作用分析
云計算技術可以給提供計算機數據傳遞與共享的條件,融合軟硬件數據保存,促進計算機處理工作更好的開展。云計算技術可以給用戶提供良好的網絡環境與保存空間,處理數據傳遞環節的各項問題。與傳統大數據分析技術相比,云計算計算可以提高大數據分析質量。人們借助云計算技術獲得云終端的數據,切實滿足人們對于數據的需求?,F階段計算機市場形成完善的結構體系,圍繞云計算技術推動計算機大數據分析工作的開展,奠定后期云計算技術發展的基礎。目前,人們生活中全面運用云計算技術,基于云計算技術研發的服務器及操作系統方便人們處理各類信息技術。同時,云計算技術數據保存有著較強的安全性,極小可能出現數據丟失情況,滿足人們的實際需求,直接體現出云計算技術的優勢。優化云計算環境下計算機的數據處理中心,就可以不斷提升計算機的云計算能力,讓云計算不僅為網絡信息所用,還在計算機網絡安全中發揮極為重要的作用。目前,計算機的使用人群更為注重的是在高速發達的信息社會,自己的信息,也就是使用計算機網絡的安全性能是否能得到保障,這時候考驗的就是云計系統的完善性。目前存在的最主要計算機安全問題就是黑客問題和系統漏洞問題。系統漏洞這一人為因素可以通過不斷檢索進行漏洞的發現和修補,面對黑客的攻擊,能夠做的就是防患于未然,不斷地升級和優化系統,最終達到完善的數據處理效果。
2云計算技術下計算機大數據分析面臨的問題
2.1網絡技術安全
由于相關技術的不斷發展,云計算環境下的網絡安全技術正在朝著穩定和成熟的方向發展,但在具體的應用過程中依然表現出一定的網絡安全問題,因此用戶在使用過程中應該做好相關的應對工作。網絡安全問題具體表現在用戶在使用信息傳輸的過程中,一旦出現服務性中斷問題,難以保證數據的安全性,啟動被動保護模式的情況使信息的安全性更加難以保障,這也成為云計算模式下的網絡技術安全中的重點問題,一旦得不到及時有效的解決,用戶在使用過程中就會受到不同程度的威脅。
2.2網絡環境安全
網絡環境安全是保證網絡正常使用,信息傳輸質量有保證的重要前提,一旦網絡環境存在不安全因素,將會引發病毒的入侵和黑客的攻擊。因此網絡環境安全也是云計算技術價值得以發揮的重要前提。計算機在使用過程中如果長期受到病毒的困擾和黑客的威脅,將會降低人們對計算機的信賴性,甚至在工作和生活中將會在網絡環境安全方面投入更多的成本。
3計算機大數據分析中云計算技術的具體應用
3.1數據傳輸安全分析
在云計算的作用下,云安全含義逐漸形成,具體來說,云安全主要指在用戶借助云計算技術來實現計算機大數據分析時,讓數據安全性得到了保證。用戶端數據和數據安全往往呈現出正比關系,隨著應用群體數量的增多,涉及的計算機數據范疇將不斷擴充,假設計算機遭受病毒的攻擊,可以在云計算技術的作用下實現病毒的攔截,以此讓計算機數據安全性得到保證。從云計算技術自身角度來說,其提供的各個服務均是由IaaS基礎設施級服務以及PaaS平臺級服務兩項內容構建而成。首先,IaaS基礎設施級服務其作用在于,可以給用戶提供對應的服務,也就是對各個計算機基礎設備進行操作和應用,其中包含了CPU處理、數據保存、數據傳遞等。其次,PaaS平臺級服務則是指,把云計算中各個服務器及開發環境當作服務,通過PaaS平臺用戶能夠結合自身需求實現對應操作流程的部署和應用。
3.2監督數據資源共享
網絡資源在傳輸過程中遭遇到的安全威脅是用戶時時刻刻關注的問題,因此在具體的工作和管理中,需要提高云計算網絡安全技術的應用程度,通過不斷創新安全模式,完善相應的防護體系,從而有效消除安全性問題,提升數據傳輸的安全性和穩定性。具體在應用過程中,可以借助云計算技術的優勢,對數據傳輸的整個路徑進行監控,保證傳輸通道環境的安全性,一旦出現問題及時進行預警,有效預防黑客的攻擊,降低網絡安全事故發生的概率。對此,有關部門應該提高重視程度,同時完善相應的監督管理制度,采用科學的管理方式,實現預期的監測目標。
3.3提高數據使用安全
計算機用戶本身的安全意識也是當前需要關注的重要方面,為了進一步提升用戶數據信息和計算機系統的安全系數,需要重視身份認證工作的提升,具體可以使用實名制的方式進行認證處理,從而不斷提升整個網絡結構的安全性。對于網絡應用過程中涉及到的安全問題,可以通過實名追蹤的方式進行可疑目標鎖定,從而有效控制惡意攻擊情況的發生。但在應用過程中也需要重視假人名情況的出現,提高網絡數據信息竊取的預防水平。計算機網絡環境算是一種相對開放的環境,在使用過程中會面向大量的用戶,通過重視用戶的身份認證,可以有效避免用戶對數據的非法訪問。同時在使用者進行計算機登錄和使用的時候,需要對用戶名和密碼進行核實。按照權限的不同,確保數據庫信息的安全有效性。通過對數據庫信息加密處理,可以確保數據庫信息的安全性。這種加密處理可以在原有數據信息的基礎上進行算法的處理改進,使用者可以通過自身的權限獲取想要了解的信息,如果沒有解密方式,不法分子將會難以獲取數據的原始信息。
3.4網絡安全等級防護
在云計算環境下的安全管理中心具備系統管理、安全管理和安全審計等功能,能夠滿足不同云計算環境下不同安全等級的保護要求,并且通過服務層的安全保護框架,實現對不同等級云服務客戶端的安全保護,為使用者提供安全可靠的資源訪問服務。在訪問云服務商時,用戶可通過通信網絡、API接口和Web服務方式訪問云服務器,但是用戶終端系統的安全防護不在網絡安全等級保護框架體系內。在保護框架體系內,資源層和服務層安全是云計算環境安全保護的重點,資源層包括物理資源安全和虛擬資源安全,應按照安全設計要求構建資源層安全保護框架。云計算環境下的網絡安全等級保護要針對不同等級云計算平臺確定不同的安全目標,一般情況下安全保護等級最低為二級,并根據安全目標和等級要求實施安全設計步驟,具體包括:第一步,根據云平臺的租戶數量和業務系統情況確定云計算安全保護標準,制定云計算平臺的安全保護策略,以避免在云計算平臺上發生安全事件;第二步,細化安全技術要求,針對安全計算環境、安全區域邊界、安全通信網絡以及安全管理中心制定出相應的安全保護策略;第三步,根據云計算功能框架中的各層功能和保護要求,制定安全技術機制,使其滿足云計算功能框架的安全保護要求。在完成云計算環境下的網絡安全等級保護設計之后,還應增加虛擬化安全、鏡像安全、接口安全等安全控制點,并采用訪問控制技術、身份識別技術等安全防護技術,實現與云計算平臺上各功能層次的對接,提出各層的安全保護措施。
3.5重視相應程序開發
網絡安全應用程序需要隨著技術的進步和人們生活和工作的需要進行逐步提升,從而及時對病毒程序進行開發和處理,確保計算機系統可以敏銳捕捉到病毒的活動跡象,提升自身的防御能力。通常情況下,對于計算機的服務,內網隱蔽處理,可以提升網站平臺的訪問速度,可以避免不安全網址帶來的不良效應,從而為計算機的安全防御提供一定的屏障。在計算機數據的使用中,由于安全性威脅導致的數據丟失問題,可以通過備份和恢復改善。這種恢復性功能也可以保證數據的一致性和完整性。通常由邏輯備份、動態備份以及靜態備份等幾種情況。計算機黑客數量增多,凈化網絡環境顯然存在較大難度,但通過必要的防范措施依然可以在數據庫信息的保護中起到關鍵作用。而使用防火墻保護工具就能很好的為計算機網絡提供一種安全保障。通過防火墻,可以在一定程度上防止黑客的侵害。
關鍵詞 數據挖掘 基因序列 生物信息學 遺傳疾病 患病家族連鎖分析
在生物信息學的成果的理論基礎之上,通過統計的方法查找未知的生物化學功能的疾病基因的位置。這個方法預先通過患病家族連鎖分析,再推斷包含這些基因的染色體區域片段,然后檢查該區域來尋找基因[1]。
數據挖掘在DNA數據分析的發展狀況
現今所采用的是分子生物學與微電子技術相結合的核酸分析檢測技術[2]。DNA芯片技術的基本原理是將cDNA或寡核昔酸探針以105~106位點/cm2>/sup>的密度結合在固相支持物(即芯片)上,每個位點上的cDNA或寡核昔酸探針的順序是已知的,將該探針與熒光標記的待測樣品DNA,RNA或cDNA在芯片上進行雜交,然后用激光共聚焦顯微鏡對芯片進行掃描,并配合計算機系統對雜交信號做出比較和檢測,從而迅速得出所需的信息。
基因數據挖掘常用的方法:①核酸與蛋白質比較的預測分析:蛋白質序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區域和保守性位點,尋找二者可能的分子進化關系。進一步的比對是將多個蛋白質或核酸同時進行比較,尋找這些有進化關系的序列之間共同的保守區域、位點和profile,從而探索導致它們產生共同功能的序列模式。此外,還可以把蛋白質序列與核酸序列相比來探索核酸序列可能的表達框架;把蛋白質序列與具有三維結構信息的蛋白質相比,從而獲得蛋白質折疊類型的信息。②針對核酸序列的預測方法:針對核酸序列的預測就是在核酸序列中尋找基因,找出基因的位置和功能位點的位置,以及標記已知的序列模式等過程。在此過程中,確認一段DNA序列是一個基因需要有多個證據的支持。一般而言,在重復片段頻繁出現的區域里,基因編碼區和調控區不太可能出現;如果某段DN段的假想產物與某個已知的蛋白質或其他基因的產物具有較高序列相似性的話,那么這個DN段就非常可能屬于外顯子片段;在一段DNA序列上出現統計上的規律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質編碼區的有力證據;其他的證據包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。
案例分析
疾病是由于基因的片段內的某個位置存在或發生改變而引起的,也就是發生突變。能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正?;颍窟@都需要數據挖掘技術的支持。對基因的數據挖掘,就是對這些突變位置的尋找,并且找出該位置與所有者身患的疾病之間的關系。
方法的選擇:筆者在設計中選用單純的DNA序列進行比較,基因在計算機的表示和存儲時,可以使用一條很長的字符串來表示基因的某一條序列,使用文件的形式進行對基因工作者的提取成果創建一級數據庫,使用文件修整的方法進行數據的清洗,以滿足數據在二級數據庫中的一致性。同時在文件比較過程中,生成某兩個數據文件的差異狀況,保存在二級數據庫庫中,進一步的操作是對差異的位置的某個類型所占的比例。最后通過事先的對患者患病信息的統計得到的某種疾病在群中所占的比例,與其相比較,如果這兩個比例相等,則可以認為這個位置的某個類型引起疾病的發生。從醫學院得到一些基因片段文件信息和患者(所有者)患病情況。
系統的實現:基因片段在計算機中以文件形式存儲,用文件名標識其所有者(源體)。片段起始地址和長度信息和所有患者患病情況保存在本機數據庫中。在程序測試過程中,將片段復制成40份,對其中部分文件的序列進行稍作修改,對所有患者的患病狀況進行稍作修改,以創造測試環境。顯示在與基因數據挖掘軟件同在一根目錄下的序列文件的集合。
其中一個文件所存儲的基因信息,見圖1。
啟動統計程序界面,單擊清空數據庫中的臨時用表數據,將數據庫中有可能的雜音信息去掉。并對其中的所有文件進行統計前片段剪切,使所有片段的起始地址和長度都相同,避免發生序列移位。
沒有進行片段剪切之前,瀏覽文件所存的片段信息,片段剪切完成之后,設置進行比較操作的甲、乙組的文件添加,因為本次測試只檢驗片段中的一塊區域(文件中片段的所有信息),所以在起始序號那里添加為0,終止序號那里添加為175。這樣則可以保證統計文件的所有信息都被統計。
單擊結果顯示按鈕,可以見到程序以表格和條形圖標方式??梢钥吹?、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說明在這些接受統計的片段中,在上面提到的位置處存在的差異較大,與某遺傳疾病的關聯的可能性就越大。
如果用戶想要在初步統計結果的基礎上,按照數據庫中所有者的疾病狀況進行詳細統計的話,單擊菜單欄的詳細統計按鈕,選擇按疾病詳細統計,則將彈出窗口。
選擇弱視,輸入,則在文本框中顯示與其關聯的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用戶可以根據本系統所給出的預測對弱視遺傳疾病與序列中的特定位置,選擇適當算法進行進一步的計算及檢驗,證明預測結果是否符合關聯理論。數據挖掘方法體系中的智能聚類的相關技術則可較好的解決類別數判定、結果驗證等問題。
結 論
對于生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的復雜程度、數據量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,需要一些新的和好的算法;但技術和軟件還遠沒有達到成熟的地步,因此需要不斷探索及研究。
參考文獻
1 黃詒森.生物化學[M].北京:人民衛生出版社,2002:29-37.
關鍵詞:告警數據 Hadoop Spark
1 引言
隨著電信網絡的不斷演進,全省數據網、交換網、接入網設備單月產生告警原始日志近億條。以上告警通過網元網管、專業綜合網管、智能網管系統[1]三層收斂,監控人員每月需處理影響業務或網絡質量的告警事件為20萬條,但一些對網絡可能造成隱患的告警信息被過濾掉。如何從海量告警數據中獲取與網絡性能指標、運維效率相關的有價值的數據,對于傳統的關系型數據庫架構而言,似乎是一個不可能完成的任務。
在一般告警量情況下,ORACLE數據處理能力基本可以滿足分析需求,但當告警分析量上升到億級,如果采用傳統的數據存儲和計算方式,一方面數據量過大,表的管理、維護開銷過大,要做到每個字段建索引,存儲浪費巨大;另一方面計算分析過程耗時過長,無法滿足實時和準實時分析需求。因此必須采用新的技術架構來分析處理海量告警信息,支撐主動維護工作顯得尤為必要,為此我們引入了大數據技術。
2 分析目標
(1)數據源:電信運營商網絡設備告警日志數據,每天50 G。
(2)數據分析目標:完成高頻翻轉類(瞬斷)告警分析;完成自定義網元、自定義告警等可定制告警分析;完成被過濾掉的告警分析、TOPN告警分析;核心設備和重要業務監控。
(3)分析平臺硬件配置:云計算平臺分配8臺虛擬機,每臺虛機配置CPU16核;內存32 G;硬盤2 T。
3 制定方案
進入大數據時代,行業內涌現了大量的數據挖掘技術,數據處理和分析更高效、更有價值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計算、MapReduce[3]、Spark[4]算法等構造而成的新型架構,挖掘有價值信息。
Hadoop是Apache基金會用JAVA語言開發的分布式框架,通過利用計算機集群對大規模數據進行分布式計算分析。Hadoop框架最重要的兩個核心是HDFS和MapReduce,HDFS用于分布式存儲,MapReduce則實現分布式任務計算。
一個HDFS集群包含元數據節點(NameNode)、若干數據節點(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統,DataNode存儲數據塊文件。HDFS將一個文件劃分成若干個數據塊,這些數據塊存儲DataNode節點上。
MapReduce是Google公司提出的針對大數據的編程模型。核心思想是將計算過程分解成Map(映射)和Reduce(歸約)兩個過程,也就是將一個大的計算任務拆分為多個小任務,MapReduce框架化繁為簡,輕松地解決了數據分布式存儲的計算問題,讓不熟悉并行編程的程序員也能輕松寫出分布式計算程序。MapReduce最大的不足則在于Map和Reduce都是以進程為單位調度、運行、結束的,磁盤I/O開銷大、效率低,無法滿足實時計算需求。
Spark是由加州伯克利大學AMP實驗室開發的類Hadoop MapReduce的分布式并行計算框架,主要特點是彈性分布式數據集RDD[5],中間輸出結果可以保存在內存中,節省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優點外,還支持多次迭代計算,特別適合流計算和圖計算。
基于成本、效率、復雜性等因素,我們選擇了HDFS+Spark實現對告警數據的挖掘分析。
4 分析平臺設計
4.1 Hadoop集群搭建
基于CentOS-6.5系統環境搭建Hadoop集群,配置如表1所示。
4.2 Spark參數設置[6]
Spark參數設置如表2所示。
4.3 數據采集層
數據采集:由于需采集的告警設備種類繁多,故采取分布式的告警采集,數據網設備、交換網設備、接入網設備分別通過IP綜合網管、天元綜合網管、PON綜合網管進行采集,采集周期5分鐘一次。采集機先將采集到的告警日志文件,通過FTP接口上傳到智能網管系統文件服務器上,再對文件進行校驗,通過Sqoop推送到Hadoop集群上。
4.4 邏輯處理層
(1)建立高頻翻轉告警監控工作流程
先將海量告警進行初步刪選,通過數量、位置和時間三個維度的分析,得出高頻翻轉類告警清單列表,最后由專業工程師甄別確認,對某類告警進行重點關注和監控。
(2)差異化定制方案
按組網架構細分,針對核心重要節點的所有告警均納入實時監控方案;
按業務網絡細分,針對不同業務網絡設計個性化的監控方案;
按客戶業務細分,針對客戶數字出租電路設計個性化的監控方案。
4.5 數據分析層
Spark讀取Hive[7]表的告警數據,然后在Spark引擎中進行SQL統計分析。Spark SQL模K在進行分析時,將外部告警數據源轉化為DataFrame[8],并像操作RDD或者將其注冊為臨時表的方式處理和分析這些數據。一旦將DataFrame注冊成臨時表,就可以使用類SQL的方式操作查詢分析告警數據。表3是利用Spark SQL對告警工單做的一個簡單分析:
5 平臺實踐應用
探索運維數據分析的新方法,利用大數據分析技術,分析可能影響業務/設備整體性能的設備告警,結合網絡性能數據,找到網絡隱患,實現主動維護的工作目標。
5.1 高頻翻轉類告警監控
首先制定了高頻翻轉類告警分析規則,將連續7天每天原始告警發生24次以上定義為高頻翻轉類告警,并基于大數據平臺開發了相應的分析腳本,目前已實現全專業所有告警類型的分析。表4是全省高頻翻轉類TOP10排名。
5.2 核心設備和重要業務監控
目前以設備廠商或專家經驗評定告警監控級別往往會與實際形成偏差,主要表現在以下幾個方面:監控級別的差異化設定基于已知的告警類型,一旦網絡重大故障上報未知的告警類型就無法在第一時間有效監控到;同一類型的故障告警出現在不同網絡層面可能影響業務的程度是完全不同的;不同保障級別的客戶對故障告警監控的實時性要求也是不同的。
通過大數據分析平臺對差異化監控提供了靈活的定制手段,可根據告警關鍵字,分專業、地市、網管、機房、告警頻次等維度自主定制需要的告警數據,實現日、周、月、某個時間區等統計分析。
應用案例:省NOC通過大數據分析出一條編號為CTVPN80113的中國平安大客戶電路在一段時間內頻繁產生線路劣化告警,但用戶未申告,省NOC隨即預警給政企支撐工程師,政支工程師與用戶溝通后,派維護人員至現場處理,發現線路接頭松動,緊急處理后告警消除、業務恢復。
5.3 被過濾告警分析
全省每天網絡告警數據300萬條~500萬條,其中99%都會根據告警過濾規則進行過濾篩選,把過濾后的告警呈現給網絡監控人員。過濾規則的準確性直接影響告警數據的質量。一般來說告警過濾規則可以從具有豐富運維經驗的網絡維護人員獲得,但是這個過程非常繁瑣,而且通過人工途徑獲得的告警過濾規則在不同的應用環境可能存在差異,無法滿足網絡維護的整體需要。采用大數據技術對被過濾的告警進行分析可以很好地完善過濾規則,讓真正急迫需要處理的告警優先呈現給維護人員及時處理,真正做到先于客戶發現故障。表5是動環專業被過濾的告警情況分布。
5.4 動環深放電分析
動環網管通過C接口采集蓄電池電壓數據,在停電告警產生之后,電壓數據首次下降到45 V,表示該局站電池出現深放電現象,通過計算這一放電過程的持續時間,記為深放電時長,該時長可以初步反映電池的放電性能。一個局站每天產生幾十萬條電壓等動環實時數據。
在告警數據分析的基礎上,實現對蓄電池電壓變化數據的分析,提醒分公司關注那些深放電次數過多和放電時長過短的局站,核查蓄電池、油機配置、發電安排等,并進行整治。利用Spark SQL統計了一個月內撫州、贛州、吉安三分公司幾十億條動環數據,分析了其中深放電的情況如表6所示。
6 結論
本文利用HDFS+Spark技術,實驗性地解決告警數據存儲和分析等相關問題:一是通過數據分析,從海量告警數據中發現潛在的網絡隱患;二是結合資源信息和不同專業的告警,最終為用戶提供綜合預警;三是轉變網絡監控思路和方式,通過數據匯聚、數據相關性分析、數據可視化展示,提高了網絡監控效率;最后還擴展到對動環實時數據、信令數據進行分析。
從實際運行效果來看,HDFS和Spark完全可以取代傳統的數據存儲和計算方式,滿足電信運營商主動運維的需求。
參考文獻:
[1] 中國電信股份有限公司. 中國電信智能網管技術規范-總體分冊[Z]. 2015.
[2] Tom white. Hadoop權威指南[M]. 4版. 南京: 東南大學出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
[9] 員建廈. 基于動態存儲策略的數據管理系統[J]. 無線電工程, 2014,44(11): 52-54.
關鍵詞:大數據 智能 數據分析
中圖分類號:F503 文獻標識碼:A 文章編號:1674-098X(2014)04(a)-0021-01
對于數據分析來說,其主要的目的就是通過對數據的分析去發現問題或預測趨勢。從數據鉆取、大規模分析的技術手段、以及算法執行上來說,大規模分析是和小規模數據在技術上是有很大差異的。想要探究大數據下的智能數據分析技術,首先要對數據分析這一概念進行深入研究。
1 數據分析
數據分析的過程其實簡單的說就是做報告,做什么樣的報告反映什么樣的指標。最開始的時候基本上是data processing。例如零售行業來說,最主要的指標就是庫存、銷售同比增長情況、利潤同比增長情況、促銷率等等。對于不同的行業會有不同的相關的KPI需要跟蹤,所以報告的內容也會有所側重,但是只要你一個行業做久了,熟悉了套路之后,基本上就是以同樣的方法開展。
對于數據分析,如果公司部門分的比較細的(例如可能有建模組),那么做數據分析可能永遠都是做data processing了。對于模型的分析,需要你對業務有了深入的了解就可以建立一些模型出來(例如推薦模型)等等。
數據分析主要涉及的技能:
(1)數據庫的能力。越全面越好,如果不是理工科的,最起碼要會select那些簡單的查詢語句。
(2)EXCEL、PPT的能力。報告的呈現一般都是Excel+PPT的形式,最好VBA,這樣就可以將很多人工的工作轉化為自動化的能力,提高工作效率,領導也對你刮目相看,自己也有更多空余的時間準備其他方面的知識。
(3)市場分析能力。學會觀察市場的走向和關注的內容,例如零售行業,現在大家都對CRM很熱衷,那相關的分析方法和方式是怎么樣的,你要自己去了解。從來不會有人手把手的將所有東西都告訴你,你必須自己學會去增長知識。
(4)一些會計的知識。因為通過以上分析,就是會計管理的一部分內容,最后還是公司盈利問題。有興趣的也可以去看看戰略管理方面的,對于做數據分析也很有好處的說。
綜合來看,可以說數據分析=技術+市場+戰略。
2 如何培養數據分析能力
理論:
基礎的數據分析知識,至少知道如何做趨勢分析、比較分析和細分,不然拿到一份數據就無從下手;
(2)基礎的統計學知識,至少基礎的統計量要認識,知道這些統計量的定義和適用條件,統計學方法可以讓分析過程更加嚴謹,結論更有說服力;
(3)對數據的興趣,以及其它的知識多多益善,讓分析過程有趣起來。
實踐:
(1)明確分析的目的。如果分析前沒有明確分析的最終目標,很容易被數據繞進去,最終自己都不知道自己得出的結論到底是用來干嘛的;
(2)多結合業務去看數據。數據從業務運營中來,分析當然要回歸到業務中去,多熟悉了解業務可以使數據看起來更加透徹;
(3)了解數據的定義和獲取。最好從數據最初是怎么獲取的開始了解,當然指標的統計邏輯和規則是必須熟記于心的,不然很容易就被數據給坑了;
(4)最后就是不斷地看數據、分析數據,這是個必經的過程,往往一個工作經驗豐富的非數據分析的運營人員要比剛進來不久的數據分析師對數據的了解要深入得多,就是這個原因。
3 大數據
大數據就是通過統計分析計算機收集的數據,在人們可能不知道“為什么”的前提下,了解到事物的狀態、趨勢、結果等“是什么”。
對于大數據,一直來說,數據規模導致的存儲、運算等技術問題從來不是最重要的瓶頸。瓶頸只在于前端數據的收集途徑,以及后端商業思想引領的模型和算法問題。早期的各類OLAP工具已經足夠了,后來類似海杜普這樣的研究則徹底降低了分布式數據的架構成本和門檻,就徹底將大數據帶入了一個普及的領域。
從技術層面說,大數據和以前的數據時代的最大差異在于,以前是數據找應用/算法的過程(例如各大銀行的大集中項目,以及數據建倉),而大數據時代的重要技術特征之一,是應用/算法去找數據的過程,因為數據規模變成了技術上最大的挑戰。
大數據的特點:
(1)大數據不等同于數據大,我們處理問題是根據這個問題的所有數據而非樣本數據,即樣本就是總體;不是精確性而是混雜性;不是因果關系而是相關關系。
(2)大數據應用的幾個可能:當文字變成數據,此時人可以用之閱讀,機器可以用之分析;當方位變成數據,商業廣告,疫情傳染監控,雅安地震時的谷歌尋人;當溝通變成數據,就成了社交圖譜。一切都可以量化,將世界看作可以理解的數據的海洋,為我們提供了一個從來未有過的審視現實的視角。
(3)數據創新的價值:數據的再利用。例如重組數據:隨著大數據出現,數據的總和比部分更有價值,重組總和和本身價值也比單個總和更大;可擴展數據:在設計數據收集時就設計好了它的可擴展性,可以增加數據的潛在價值;數據的折舊值:數據會無用,需淘汰更新;數據廢氣:比如語音識別,當用戶指出語音識別程序誤解了他的意思,實際上就有效的訓練了這個系統。
總之,大數據是因為對它的分析使用,才產生和體現它的價值,而不是因為其用到了突出的技術和算法才體現了它的價值。
4 大數據下的智能數據分析
在大數據的背景下,必須考慮數據之間的關聯性。一個單獨的數據是沒有意義的,實際中,選擇處在兩個極端的數據往往更容易找出它們之間的聯系,把它們放在一個框架中看才能發現問題。因此,可以用以下四種方法在大數據背景下進行智能數據分析:
(1)從解決問題的角度出發收集數據;
(2)把收集的數據整理好,放入一個框架內,并利用這個框架幫助決策者做出決定;
(3)評估決定與行動的效果,這將告訴我們框架是否合理;
(4)如果有新的數據出現,我們將考察能否利用它對前面三步做出改進,以及我們今天是否還需要收集更多種類的數據。
5 結語
數據分析的最終目的是幫助業務發現問題并解決問題,提升公司價值,而這些是從數據發覺的,而不是盲目下結論。每家公司都有自己業務生產的數據,通過數據分析、同比環比、漏斗分析及模型等,發現業務上存在的問題,幫助公司業務的優化。
參考文獻
[1] 李貴兵,羅洪.大數據下的智能數據分析技術研究[J].科技資訊,2013(30).
關鍵詞:聯機數據分析;處理數據;分析和轉換數據
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)03-0006-03
為了提升大學物理公共課程的教學水平,更好地了解學生的學習情況,需要引用聯機數據技術,通過科學建立模型對教學數據進行處理和分析。維度模型的建立是為了能夠全方位地剖析數據。
1 建立數據模型
建立模型是為了更加直觀地表達數據和事實。對于同一批數據,人們總是會以不同的角度對其進行觀察,這就是維度。維度模型從不同的角度分析數據,最終得出一張事實表。
如圖1所示,維度模型包括了教材維度表,學期維度表,教師維度表,學生維度表和教學事實表。為了更好地分析教學效果,維度模型從四個不同的角度進行分析,每一張維度表上都注明了詳細的數據內容。最后,在總結四張維度表的基礎上,概括了最終的教學事實表。
2 OLAP技術
2.1 數據的采集
原有的Visual和SQL數據庫上儲存了學生的信息,教師的信息以及教學的數據等等。如圖二所示,教務數據庫中包含了課程信息表,學生信息表以及選課成績表。DTS工具能夠從不同的數據庫中自動抽取需要進行分析的數據,并且將其全部集中在一個新的數據庫中。新的SQL數據庫既可以儲存信息,還能夠對信息進行管理。聯機分析處理技術從不同的角度分析數據,有助于全面了解學生的學習情況和教師的教學質量。
2.2 數據分析的結構
從圖2中可以看出,數據分析的結構包括了四層,其中最底層的是各種信息數據庫和文本文件,在此基礎上建立數據ETL,然后建立相應的維度模型,最后利用聯機分析技術對數據進行分析。采集數據和轉換數據是使用聯機分析技術的基礎,也是必不可少的一步。多維度分析是該結構中的最后一步,最終的結果將會把數據轉換成圖表的形式呈現出來。
2.3 轉換數據
由于不同數據的語法可能存在差異,因此,把不同的數據轉換成相同的結構顯得尤為必要。在聯機分析技術應用的過程中,轉換數據是關鍵的一步,能否成功轉換數據,決定了維度模型的建立是否具有科學性與全面性。轉換數據是為了解決語法,語義結構不同引起的問題。
和數據語義不同相比,處理不同語法的數據顯得更為簡單。如果數據本身和目標數據之間存在語法結構不同的問題,那么只需要通過函數對其進行轉換即可。一般來說,數據本身的內容并不會影響轉換過程,只要建立原數據和目標數據之間的對應關系,就能解決數據名稱存在沖突的問題。例如,學生數據庫本身的信息包括了學生的ID和班級,這就相當于最終目標數據中學生對應的名稱和班別。如果數據類型不同,可以運用相應的函數對其進行轉換,例如trim()函數就能完成數據的轉換。下面是利用函數對原數據中學生的ID,專業以及院名進行轉換的過程,其轉換代碼如下:
Function Main()
DTSDestination(“ID”)=trim(DTSSourse(“名稱”))
DTSDestination(“專業”)=cstr(DTSSourse(“專業”))
DTSDestination(“院名”)=trim(DTSSourse(“學院”))
Main=DTSTransformStat_OK
End Function
轉換不同語義結構的數據是一個復雜的過程,它需要重視數據本身的信息和內容。因此,僅僅通過一步完成數據轉換的過程是幾乎不可能的,它需要將原數據進行一次次轉換,才能得到最終的目標數據。例如每一個教師都有以及開展項目,在原數據中只能看到項目的名稱和論文的名稱,如果需要將其轉換成教師的論文數量和項目數量,則需要經過兩步的數據轉換。
2.4 數據結果分析
原數據從SQL中提取出來,然后通過函數對其進行轉換,最后利用聯機分析技術進行數據管理和分析,從不同的角度研究數據,從而全面分析學生的學習情況和教師的教學情況。數據分析的方法有很多種,其目的都是為了全方位地剖析數據。
2.4.1 高校教師教學質量的對比分析
在教師維度表中,我們已經按照教師的從業年齡,學歷以及職稱對其進行劃分,不同職稱的教師,其教學質量有著明顯的區別。教師的學歷不同,教齡有所差異,這都和教學效果息息相關。
2.4.2 不同時期對教學質量的影響分析
聯機分析處理技術能夠從多角度分析數據,教學質量不可能是一成不變的,它與多個因素密不可分,時間也是其中一個因素。在不同的時期,由于政策的變動和外界因素的影響,教師的教學質量也會隨之而受到不同程度的影響。
2.4.3 教學質量和其他因素息息相關
除了時間和教師的水平會對教學質量造成一定的影響,還有其他因素同樣會影響教學效果,例如:學生的學習能力,學校選用的課本等。綜合考慮各個因素對教學效果的影響,有利于教育部門更好地作出相應的政策調整。
3 計算機分析處理技術中的數據處理方法分析
無可置疑,計算機技術的出現顛覆了人們傳統的思想和工作模式。如今,計算機技術已經全面滲透到我們生活中和工作中的各個方面。不管是在工業生產還是科研數據處理中,計算機技術都發揮著不可替代的作用。如今我們需要處理的數據正與日俱增,這就意味著傳統的數據處理方法已經無法滿足人們的需求了。儀表生產和系統控制要求數據具有高度精確性,這些數字在顯示之前,都必須經過一系列的轉換,計算以及處理。首先,數據會以一種形式經過轉換器,然后變成另一種新的形式,只有這樣計算機才能對數據進行處理和分析。處理數據是一個復雜多變的過程,它的方法并不是單一的,根據數據處理的目標不同,需要選擇不同的數據處理方法。例如,有的數據需要進行標度轉換,但有些數據只需要進行簡單計算即可,計算機技術的不斷進步是為了更好地應對人們對數據處理新的需要。
計算機數據處理技術的應用離不開系統,它比傳統的系統更加具有優越性:
1)自動更正功能,計算機系統在處理數據時,對于計算結果出現的誤差能夠及時修正,確保結果的準確度。
2)傳統模擬系統只能進行數據的簡單計算,而計算機系統則能夠處理復雜多變的數據,其適用范圍和領域更加廣。
3)計算機系統不需要過多的硬件,只需要編寫相應的程序就能夠完成數據的處理,在節省空間的同時也降低了數據處理的成本。
4)計算機系統特有的監控系統,能夠隨時監測系統的安全性,從而確保數據的準確度。
對于不同的數據,往往需要采用不同的處理方式,處理數據的簡單方法包括查表,計算等。除此之外,標度轉換,數字濾波同樣是應用十分廣的處理技術。
3.1 數據計算
在各種數據處理方法中,計算法是最為簡單的一種,利用現有的數據設置程序,然后直接通過計算得出最終的目標數據。一般來說,利用這種方法處理數據需要遵循一個過程:首先,求表達式,這是計算法最基本的一步;其次,設計電路,在此之前必須將轉換器的位數確定下來;最后,利用第一步已經求出的表達式運算數據。
3.2 數據查表
3.2.1 按順序查表格
當需要搜索表格中的數據時,往往需要按照一定的順序和步驟。首先,明確表格的地址和長度,然后再設置關鍵詞,最后按照順序進行搜索。
3.2.2 通過計算查表格
這是一種較為簡單的方法,適用范圍并不廣。只有當數據之間表現出明顯的規律或者數據之間存在某種關系時,才能夠使用這種方法查表格。
3.2.3 利用程序查表格
相比于上述的兩種方法,利用程序查表格是一種相對復雜的方法,但是這種方法的優點在于查找效率高,并且準確度高。
3.3 數據濾波處理
采集數據并不難,但是確保每一個數據的真實性卻十分困難,尤其是在工業系統中,數據的測量難以確保絕對準確,因為在測量的過程中,外界環境對數據的影響往往是難以預估的。為了提高數據處理的精確度和準確率,需要借助檢測系統對采集的數據進行深加工。盡可能地讓處理的數據接近真實的數據,并且在數據采集的過程中最大限度地減少外界因素對其的影響,從而提高計算結果的準確度。
濾波處理技術的應用首先要確定數據的偏差,一般來說,每兩個測量數據之間都會存在一定的誤差,首先需要計算數據與數據之間可能出現的最大誤差。一旦超出這一數值,可以認定數據無效,只有符合偏差范圍內的數據,才能進行下一步的處理。
為了減少由于外界影響導致數據失真的情況,利用程序過濾數據是很有必要的。濾波技術有幾種,根據不同的需要可以選擇相應的數據處理技術,每一種數據濾波技術都有其適用范圍和優點。數據濾波技術包括算術平均值濾波,加權平均值濾波,中值濾波,限幅濾波,限速濾波以及其他類型的濾波技術。
3.4 轉換量程和標度
在測量數據的過程中,每一種參數都有相應的單位,為了方便數據處理,需要使用轉換器把數據轉換為統一的信號。標度轉換是必不可少的,為了加強系統的管理和監測,需要不同單位的數字量。轉換方法包括非線性參數標度變換,參數標度變換,量程轉換,這幾種轉換方法在數據處理的過程中較為常見。當計算過程遇到困難,可以結合其他的標度轉換方法進行數據處理。
3.5 非線性補償計算法
3.5.1 線性插值計算方法
信號的輸入和輸出往往會存在一定的關系。曲線的斜率和誤差之間存在正相關關系,斜率越大,誤差越大。由此可見,這一計算方法僅僅適用于處理變化不大的數據。當曲線繪制選用的數據越多,曲線的準確程度越高,偏差越小。
3.5.2 拋物線計算方法
拋物線計算方法是一種常用的數據處理方法,只需要采集三組數據,就可以連成一條拋物線。相比于直線,拋物線更加接近真實的曲線,從而提高數據的準確度。拋物線計算法的過程,只需要求出最后兩步計算中的M值,就能夠直接輸入數據得出結果。
3.6 數據長度的處理
當輸入數據和輸出數據的長度不一,需要對其進行轉換,使數據長度達到一致。由于采集數據所使用的轉換器和轉換數據所選擇的轉換器不同,因此,當輸入位數大于輸出位數,可以通過移位的方法使位數變成相同。相反,當輸入位數少于輸出位數時,可以使用填充的方法將其轉換成相同的位數。
4 結語
本文對聯機分析技術進行了詳細的論述,該技術的應用對于評價教學效果有著重要的意義。在物理公共課程中,教學數據數量巨大,如果利用傳統的方法對其進行分析,將會耗費大量的人力物力,而采用OLAP技術則能更加快速準確地分析處理數據。數據分析是評估教學質量必經的過程,而使用QLAP技術是為了能夠多層次,全方位地分析各個因素對教學質量的影響,從而更好地改進高校教育中存在的不足。除了分析物理課程數據,聯機分析技術同樣適用于其他課程的數據處理和分析。
參考文獻:
[1] Ralph kimball,Margy Ross.The Data Warehouse Toolkit:the Complete Guide to Dimensional Modeling[M]..北京:電子工業出版社,2003.