時間:2023-05-30 14:44:54
序論:在您撰寫數據分析論文時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
將醫院、醫療保健組織等數字化的醫療數據以特定的格式、協議發送到醫療數據分析模塊進行分析與疾病預測.醫療數據提取模塊:該模塊由醫院電子病歷系統負責實現,我們使用openEHR系統作為醫院電子病歷系統,并在openEHR中實現醫療數據的提取功能.openEHR系統是一個開源、靈活的電子病歷系統,支持HL7衛生信息交換標準.很多醫療健康組織、政府和學術科研單位都使用openEHR進行開發和科研工作.如一種基于openEHR的患者病歷數據管理模型、openEHR等許多開源的電子病歷平臺的對比與評估和基于openEHR的檔案建模等.數據交換模塊:基于Web服務的數據交換模塊使用醫療數據通信協議實現醫療數據分析模塊與醫療數據提取模塊的數據交換.Web服務是一個平立、松耦合的Web應用程序.由于Web服務的跨平臺特性,許多模型與框架是基于Web服務構建的,如基于Web服務集成分布式資源和數據流分析測試等.在本文提出的醫療數據分析模型中,使用Web服務來連接醫療數據分析模塊和醫療數據提取模塊.醫療數據提取模塊作為Web服務的服務端,實現的方法包括存取數據、數據預處理、序列化等,改進后的模型要求實現指定維度,指定屬性數據的讀?。疚奶岢龅尼t療數據分析模塊作為Web服務的客戶端,通過HTTP服務向數據提取模塊請求獲取數據,并對數據進行預處理.醫療數據分析模塊:我們使用Caisis開源平臺作為醫療數據分析與疾病預測系統實現這一模塊.Caisis是基于Web的開源癌癥數據管理系統,一些臨床醫學研究使用Caisis系統管理和歸檔數字顯微圖像,通過向Caisis系統中添加特征選擇和SVM算法,使用SVM算法對醫療數據進行分析和疾病預測,因此使用的特征選擇算法需要基于SVM,可以提高數據分析和疾病預測過程的效率和準確度.
2數據分析模塊與算法
2.1SVM算法SVM算法最初是由Vapnik等人在1995年提出的一種可訓練的機器學習算法.依據統計學習理論、VC維理論和結構風險最小化理論,從一定數目的樣本信息在學習能力和復雜度(對訓練樣本的學習程度)中找到最佳折中,以期望獲得最好的推廣能力(或稱泛化能力).
2.2基于SVM的醫療數據分析模塊將SVM分類算法應用到醫療數據分析模塊中,進行疾病預測.基于SVM的醫療數據分析模塊,通過數據交換模塊獲取原始組數據(患病病人醫療數據和對照組病人數據).通過特征選擇過程輸入到SVM分類器中進行訓練,訓練后可以對新的醫療數據進行分析預測.
3改進的醫療數據交換模塊
3.1醫療數據交換模塊在原始的醫療數據交換模塊中,數據請求原語只由4條通信原語組成.由原始醫療數據分析模型的3個模塊構建,其中在醫療數據分析模塊與醫療數據提取模塊之間的4條通信原語包括2條請求和2條應答.由于醫療數據的維度極大,屬性很多,但是在預測某個疾病時,只有很少的一部分屬性會對分類預測產生影響.這樣的全部維度的數據都需要傳輸,浪費了時間,降低了數據傳輸效率,影響了醫療數據分析模塊的算法效率.
3.2改進的醫療數據交換模塊在改進的醫療數據交換模塊中,在數據傳輸協議中增加了4條原語.在每條原語中不僅有醫療記錄條數的要求,還包括對所請求醫療數據維度和屬性的具體說明.醫療數據分析模塊先請求一小部分全部維度的數據,對這小部分數據進行特征選擇.然后醫療數據分析模塊只請求特征選擇出來的對預測相關的屬性的剩余所有醫療數據.最后通過SVM分類算法進行訓練和預測.在新的醫療數據交換模塊中,大部分數據中只有小部分相關屬性被傳輸到數據分析模塊,極大地減少了數據傳輸總量,也同時增加了分析模塊預測算法的效率.
4原始模型與改進模型的對比結果
對于使用數據的動機,除了對數據對象主體的認知識別之外,還有要對數據呈現的顯性和隱性規律進行發現,從自然語言上看,腦力活動對數據處理的第一步就是降低數據間的差異化,進行熵減的分析行為。哲學家維特根斯坦認為,對于哲學本質的界定都屬無法言說之物,應用到數據分析領域,數據存在一種由內而外的泛化慣性,不斷對原有數據形成新的描述,造成數據陣營的擴張,而其信息主體則是穩定的,對描述性數據和活動數據存在吸附力,屬于無法言說的本質最邊緣。立足于這種思想觀點,我們可以認為貌似松散無序的數據間存在一種牢固的血緣數據關系,因為所有數據都是基于信息主體泛化出的描述性和活動性數據,而這種熵減的動作其表現形式可以等同于對數據血緣關系的向上追溯,技術上則表現為一種尋找最大扇出的上層。這樣,熵減的技術實現就是通過建立血緣關系而去尋找最大扇出的上層,這種分析法易于在數據發現應用中,通過檢索建立模糊入口點去組織發現數據,其與扇出或扇入點的血緣關系越近,入口點對其的吸附力越強、權重越高。但這樣會出現另一個無法回避的問題,即通過活動在最外界的數據從體量上看相當可觀,由外到內追溯扇出上層的勞動比較沉重,從而會理所當然地采取抽樣的方式進行,此項活動的進行必須假定數據世界觀上層的有限集合認定上,堅信必定會將血緣關系歸集到某幾個關鍵數據表達之上,這樣才會使本項活動的實施行為具備基本的意義和價值。從效果上看,對數據進行熵減有利于我們甄別數據關系隱含的內在規律,也有利于我們建立具有良好適應性的數據生態模型,為更好地認識和利用數據打下基礎??梢院侠頃诚胍幌?,當我們就一個焦點議題開展討論后,熵減讓我們迅速聚焦到議題的內核,甚至直面議題背后隱含的現象實質,不必糾纏于不必要的信息干擾,對討論內核進行強化呈現,智力活動所崇尚的方式也可以在計算活動中得以體現。熵減在某種意義上不是對某一類數據分析所采取的手段,而是對數據認識的宏觀行為,其在計算領域內的呈現方式,與我們對事物自然認知而采取的抽象和引申別無二致,如此深入下來,對熵減策略的研究更重要于對熵減活動的歸納,通過對策略模型的推演,可以有效地發揮機器學習的能力,如果在策略模型的研究上實施開展,將會極大降低加工難度。
2建立標簽關系的反向工程
當我們框定了熵減的方法體系后,在數據間建立血緣關系則顯得尤為重要,由于數據生長動力呈現由內而外的泛化驅動,但是本身這種泛化在信息化過程中很多是無組織的行為,缺少邏輯上預先定義,所以數據生成后,大量的數據關系被衰減掉,從正向渠道難以對數據關系建立血緣,工程極其浩瀚復雜。由于血緣關系無法完全在數據生長中自然形成,正向人工干預又存在操作難度,所以反其道而行之則是唯一通道。數據加工的反向性,優勢首先體現在由微觀到宏觀的加工難度大幅下降,因為其工作處于抽象的最底層,使采用眾包模式加工成為可能。其次,這種加工模式,可以在有效建立一種數據關系的閉環管理的同時,不會抑制數據生長的空間和速率,不會因加工效率低而凝固數據資產化的進程。在反向加工的過程中,需要通過標簽聯結數據關系,這時候我們要關注標簽的質量和復用度,由于標簽定義存在難度,所以要松綁標簽定義來促成數據加工的快速實施,解決的重點則遷移到標簽在后期管理中的智能化上。首先,可以通過標簽在關系聯結中的重復出現進行跟蹤,識別是標簽二義性還是加工者的活動差異?;顒硬町悩撕炞罨镜奶幚矸椒ㄊ沁M行聚合,形成知識歸納;二義標簽則需要改進表達。其次,依賴血緣關系建立可視化圖譜,從數據結構工程里可以有效識別關系路徑的黏合點,即發現重復路徑中出現的一個以上的標簽,消除由知識結構差異造成的人為誤會,對標簽進行合并。這樣,通過標簽的智能化后期管理就可以將加工難度上移,建立分層加工的工廠模式。這種加工存在基本準則,并要建立基本的衡量尺度來保證標簽有效性,加工工藝可以從標簽質量、使用度、命中率等指標進行測量。其中,質量有賴于標簽本身定義成分的內涵,要確認其被受眾廣泛理解;使用度是在加工活動中的使用次數,是否被數據關系廣泛應用,使用度較低的標簽要確認其存在價值,通過標簽間同時出現概率決定其含義表達是否具備唯一性;命中率則建立在使用者的自然需要基礎上,如果某一標簽絕少被使用者利用或調度,與整體觀測結果是否存在數值上的明顯差異。整體上看,通過這些基本準則建立標簽管理的異常檢測分析,來保證加工質量的方式具備技術的可行性,但同時更需要對后期的數據運行建立領域指標模型來校驗。
3利用詞條原子化推導入口點
1.1資料來源
AEFI數據來源于中國疑似預防接種信息管理系統。疫苗接種數據來源于中國免疫規劃信息管理系統。1.2統計方法采用描述性流行病學方法,運用EXCEL2007進行統計分析。
2結果
2.1地區分布
2013年鞍山市共報告AEFI189例,與2012年相比(35例)上升了440%??h級AEFI報告覆蓋率100%。各縣(市、區)AEFI報告數與2012年相比上升了55.56%~4200%。
2.2年齡與性別分布
男女性別比為1.49:1。報告例數排前位的年齡組分別是0歲組(101例,占53.44%)、1歲組(51例,占26.98%)、6歲組(23例,占12.17%)。
2.3疫苗和劑次分布
AEFI涉及的疫苗排前位的分別是:百白破疫苗(70例,占37.04%)、麻風疫苗(36例,19.05%)、白破疫苗(23例,12.17%)。接種疫苗第1劑次發生AEFI128例,占67.73%;第2劑次18例,占9.52%;第3劑次17例,占8.99%;第4劑次26例,占13.76%。以疫苗單劑次統計,AEFI涉及的疫苗排前位的分別是麻風疫苗(36例)、第4劑次百白破疫苗(25例)、白破疫苗(23例)、第1劑次百白破疫苗(22例)。
2.4報告發生率
根據國家免疫規劃疫苗接種率監測報告數據估算,2013年我市AEFI報告發生率為32.27/10萬劑次。國家免疫規劃各疫苗AEFI報告發生率波動在3.82/10萬劑次~125.28/10萬劑次。報告發生率居前位的分別為:麻風疫苗125.28/10萬劑次,白破疫苗84.57/10萬劑次,百白破疫苗65.17/10萬劑次。
3討論
整個系統以廣電大數據分析平臺為基礎構建,系統由數據采集系統、數據分析中心、三個數據應用中心(推薦中心、決策中心和服務中心)組成和系統管理模塊組成。
1.1數據采集系統
大數據時代,大數據有著來源復雜、體量巨大、價值潛伏等特點,這使得大數據分析必然要依托計算機技術予以實現.因此從兩個方向上加強數據采集統建設,一是側重于數據的處理與表示,強調采集、存取、加工和可視化數據的方法;二是研究數據的統計規律,側重于對微觀數據本質特征的提取和模式發現,在兩個方向上的協同、均衡推進,以此來保障大數據平臺應用的穩健成長和可持續發展.廣電的網絡和用戶是其核心資產,而其中流動的數據(包括用戶基礎數據、網絡數據、網管/日志數據、用戶位置數據、終端信息等)是核心數據資產.對于廣電運營商來說,最有價值的數據來自基礎網絡,對于基礎網絡數據的挖掘和分析是運營商大數據挖掘的最重要方向.因此其數據采集的目標包括機頂盒數據、CRM數據、帳務數據、客服數據、運維數據、媒資數據、GIS數據、財務數據和其他手工錄入、表格數據.采集頻率要求可以實現實時采集和定時批量采集.采集這類數據帶來一個問題就是各類數據雜亂無章,會導致數據質量問題越來越嚴重,通過引進實時質量監控和清洗技術,建設強大的分布式計算和集群能力,提高數據監控和數據采集性能,利用分布式處理技術,實現數據抽取、數據清洗以及相應的數據質量檢查工作,保證采集到高質量的數據,將廣電大數據中心建設成一個覆蓋廣電系統全部數據的存儲中心,具備采集各類結構化、非結構化海量數據的處理能力.
1.2數據分析中心
廣電企業每時每刻都在產生大量的數據,需要對這些數據歸集、提煉,廣電企業大數據平臺建設的意義在于有效掌握規模龐大的數據信息,對這些數據信息進行智能處理,從中分析和挖掘出有價值的信息.在廣電大數據分析中需要對直播節目分析、互動業務分析、互聯網流量分析、互聯網內容分析、廣電客戶分析、市場收益分析、智能內容推送和廣告分析等,通過這類數據分析,能夠實時了解廣電運營商的經營狀況,提供決策支持.因此采用兩種方式分析方法對收集到的數據進行分析處理.一是采用在線分析方法技術,使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數據的目的.這些信息是從原始數據直接轉換過來的,他們以用戶容易理解的方式反映企業的真實情況.在線分析策略是將關系型的或普通的數據進行多維數據存貯,以便于進行分析,從而達到在線分析處理的目的.這種多維數據存儲可以被看作一個超立方體,沿著各個維方向存貯數據,它允許分析人員沿事物的軸線方便地分析數據,分析形式一般有切片和切塊以及下鉆、挖掘等操作.二是數據挖掘是從海量、不完全的、有噪聲的數據中挖據出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規則.這些規則蘊含了數據庫中一組對象之間的特定關系,揭示出一些有用的信息,可以為經營決策、市場策劃和金融預測等方面提供依據.
1.3數據應用中心
在大數據分析平臺應用過程中,數據本身并不是數據分析和數據挖掘的重點,重點在于如何應用這些技術去解決企業在運營中實際的商業問題.通過對數據分析和挖掘,了解企業運行過程存在問題,預判企業中各類業務發展走向.對數據分析與挖掘結果來說主要有兩個方面,一是將分析結果給客戶使用,另一個是將分析結果提供給內部用戶使用,因此在大數據分析平臺設計中,將數據應用劃分為三個應用中心:
1)推薦中心
推薦中心面向收視、寬帶使用用戶,通過分析使用用戶的收視、互聯網、消費等行為,將使用用戶分群,總結群體特征,向不同群體推薦個性化的電視節目、廣告和增值應用服務.從而提升用戶的使用體驗,提升用戶的滿意度和粘度.
2)決策中心
決策中心面向廣電企業內部決策者、管理者、經營分析人員,通過對企業經營數據的KPI、運營監控、經營盤點,使企業決策者掌握企業運營狀況及發展趨勢;智能報告協助分析人員自動定位經營中的問題;即席查詢在預定義的語義層基礎上,實現靈活的自定義查詢;通過主題分析滿足各部門、崗位的多維度分析需求;通過專題分析就某一具體問題進行深入挖掘,輔助專業分析人員的工作;統計報表滿足各部門常規統計需求.
3)服務中心
服務中心面向廣電的合作伙伴,比如:電視臺、廣告商、服務和內容提供商、相關政府職能部門等.通過對使用用戶收視行為的實時分析,將電視欄目實時收視率提供給電視臺,電視臺根據收視率進行在線的問卷調查,提高電視臺的影響力,幫助其增強欄目的評價體系.為廣告商提供精準的廣告投放策略,實時準確的廣告投放評估,幫助廣告商提升廣告到達率、準確度和營銷效果.為服務和內容提供商的電影、電視和增值應用等產品提升收視率和使用頻率,并進行評估,為其提供受眾喜好特征,幫助其推出有針對性的產品.通過用戶收視數據、節目反饋等信息,將相關輿情向相關政府部門匯報.
1.4系統管理
系統管理是大數據分析平臺一個輔助功能模塊,主要是為了系統管理員對大數據平臺進行有效的監控和管理,提升大數據分析平臺性能使用,包含有如下幾個模塊:權限管理、數據質量管理、元數據管理、調度管理、系統監控等.
2數據應用分析
移動互聯網的發展為傳統行業帶來了新的思考,如何在互聯網時代更好地實現以客戶為中心的服務理念,借助大數據分析平臺、海量的客戶非結構化的行為數據和傳統的結構化數據,可以有效提升廣電個性化、人性化的服務水平.大數據分析平臺通過整合廣電網絡中多個數據源,并按照主題進行劃分,在定義主題的過程中,提供廣電業務概念的規范定義.數據模型不偏重于面向某個應用,而是站在企業角度統攬全局,提供可擴展的模型設計,偏范式化的設計使平臺在最大程度上保持一致和靈活擴展性.依托某廣電網絡公司業務開展情況,搭建數據分析平臺,具有如圖2所示的主題結構,共計8大類53小類,從廣電網絡運營的各個方面進行了數據分析.
2.1直播節目分析主題
直播電視節目作為廣電運營模式中一直沿用的產品類型,對于廣電用戶的影響和廣電運營商運營模式起著至關重要的作用.實時直播節目分析,用戶可以實時查看每個時間點上每個節目收視率,以此為據來指導產品定制、節目選擇、用戶推廣等方面的商業應用,對直播節目的多維度分析,運營商可深入分析直播節目收視特性及受眾影響規律,以指導運營優化,提高節目的收視率和營收.
2.2多媒體業務分析主題
廣電行業的雙向網絡改造不僅將視頻點播、通信及娛樂業務成為可能,同時配備增值業務,如廣告、支付、股票、游戲、付費節目等服務.可以明顯看到哪類業務最受歡迎,哪類業務的增長趨勢良好,哪類業務應用下滑得較快,哪類業務不受用戶歡迎,從這樣的分析結果中,可以為廣電網絡以后的業務引進中提供指導,避免引進的業務不受用戶歡迎,同時也可以預見性的引進一些代表將來趨勢性的業務,提前做好業務儲備工作.互動業務的互動特性為廣電運營商增加客戶粘度、制定產品投放策略、獲取最大化收益及市場價值提供了前所未有的空間,通過對互動業務的應用分析,可以分析出用戶的行為趨勢.利用這樣的分析結果改善廣電業務引進,提高用戶的粘度和ARPU值.
2.3互聯網應用分析主題
廣電作為政府宣傳的喉舌,一個主要的特點就是可管可控,相對此而言,互聯網網絡一個重要特點就是用戶各類行為的不可控性.在三網融合的新環境下,廣電網絡一個重大改變就是引進了互聯網業務,同時通過多屏互動技術使廣電終端類型日益復雜,如何對廣電網絡引進的互聯網業務和終端進行有效的管控,成為擺在廣電網絡運營商面前一個重要課題.運營商可以清晰地看到用戶在討論什么、在看什么,以此來分析用戶將來可能采取的行為趨勢,進而來引導用戶輿論與行為,實現對廣電網絡的可管可控的最終目的.同時廣電網絡也可以利用互聯網數據從如下兩方面做了分析,運營流量及應用優化,節省網絡帶寬,減少運營費,同時用以提高用戶體驗度,增加用戶粘性;充分利用線上、線下同步運營模式,深入挖掘線上討論內容,為線下運營提供指導.
2.4廣電客戶分析主題
在三網融合的環境下,廣電網絡在逐漸擺脫事業單位模式下經營模式,向“市場驅動”、“客戶驅動”經營模式的轉變,“以客戶為中心”的理念和策略不可或缺,而廣電網絡擁有的客戶群和常規用戶分析的客戶群體有著本質區別,以往分析往往針對個體用戶進行分析,廣電網絡面向的用戶通常是以家庭為單位的,這給廣電網絡用戶行為分析帶來不可預料的困難.通過針對用戶群體不同年齡、不同時間段的收視行為和上網行為分析,可以區分某一時間段內該家庭用戶內個人的行為,可以清晰看到各類用戶在各個階段的變化情況,以及這個變化給廣電網絡運營帶來的變化.從用戶信息出發,以用戶應用行為為主線,深入挖掘用戶關系,為廣電用戶關系管理提供有效基礎數據,提高用戶滿意度、忠誠度,提高廣電網絡市場運作的主動性.
2.5市場收益分析主題
三網融合后,廣電網絡作為一個市場主體,需要適應日趨激烈的市場競爭環境,提升廣電運營商的企業核心競爭力,應充分利用業務支撐系統產生的大量寶貴的數據資源,建立廣電企業收益分析系統,實現對收益數據的智能化加工和處理,為市場運營工作提供及時、準確、科學的決策依據.利用先進的OLAP技術和數據挖掘技術,幫助企業的經營決策層了解企業經營的現狀,發現企業運營的優勢和劣勢,預測未來趨勢;幫助細分市場和客戶,指導營銷、客服部門進行有針對性的營銷和高效的客戶關系管理;對決策的執行情況和結果進行客觀準確的評估,深受用戶的青睞.如圖7所示的收益分析結果,可以清晰看出企業各類業務在營收中所占比例,可以明確了解哪類業務是企業的優質業務,哪類業務需要進一步加強開拓市場,同時也可以預測哪類業務會有更大的推廣空間,為企業持續開展業務提供指導.
2.6智能內容推送主題
深層次挖掘用戶潛在的需求,以用戶的需求為導向,向用戶推送有針對性的內容.廣電運營商通過對用戶差異性的運營策略,激發用戶參與的熱情,讓用戶有持續的良好體驗,提升對用戶的吸引力和黏著度.信息精準、智能推送的關鍵在于把握住用戶的行為習慣,同時讓每一個用戶都可以按自己需求方便、快捷地調整、歸類相關信息.大數據分析平臺基于用戶行為收集分析系統,挖掘出用戶潛在需求,充分了解了用戶的真實意愿,將有助于廣電運營商建立以客戶為中心的服務理念,提升社會影響力.
3總結
隨著煙草行業信息化推進現代化進程的快速發展,新興的IT技術、先進的IT技術等已不斷融入到煙草行業的生產、營銷及管理等過程中,逐漸改變了煙草行業原有的經營管理模式,加快了煙草行業結構調整,完善管理體制,提升市場競爭力??梢哉f,信息化建設給煙草行業帶來了改革與發展。因此,對新興技術的研究與探索,具有十分重要的意義。尤其是視頻監控技術的發展,給煙草行業的帶來了較多的好處,煙草從種植、生產、流通、消費的每個環節中,視頻監控技術都發揮了重要作用。視頻大數據分析技術是近兩年興起的技術,視頻大數據分析的應用,在公安視頻偵查等中已突顯其發展前景,本文將針對煙草行業,討論視頻大數據分析的發展應用。
2視頻監控在煙草行業的發展及應用現狀
(1)煙田監控:實現對煙田、育苗大棚內實時監控;
(2)煙葉收購站監控:實現對煙草所有站點煙葉收購全流程監控視頻調看、查詢、巡視、控制的功能;
(3)生產及公用設施區監控:主要用于監控車間內重要設備、生產線運行、物流線路及環境狀況,以及動力中心車間內空調、鍋爐等重要設備的運行及環境狀況,防止災害和事故的發生。
(4)煙草物流配送中心監控:對物流配送中心進行實時監控;
3視頻大數據分析的技術需求
隨著視頻監控在煙草行業的大規模應用,視頻數據量的增加,每天產生的數據量都是以TB(1000GB)級別計算的,若是利用傳統的技術手段對每天的視頻進行檢索和分析,則需要數小時的時間才能夠完成,工作量及工作難度可想而知;而對于更高級別的視頻數據,如PB(1000TB)級別的視頻數據進行分析和檢索時間那就是很多天了。視頻檢索與分析的效率低下,也是目前視頻數據利用效率及數據價值低下的首要原因。為此,如何提高視頻數據分析與檢索的效率,如何針對PB(1000TB)級別甚至EB(1000PB)級別的海量數據進行分析與檢索,提升視頻監控數據價值,成為了當前用戶的首要需求,也成為了當前視頻大數據分析技術的難點及關鍵點之一。同時,在對視頻進行檢索與分析的過程中,需要考慮檢索結果的準確性。由于視頻圖像信息為非結構化數據,如何合理有效地對非結構化的數據進行檢索分析,優化計算機圖像識別算法,是提高視頻大數據分析準確性關鍵所在。再者,當完成視頻檢索與分析后,如何做好視頻數據與非視屏數據的整合與關聯工作,是后期視頻數據應用時重點考慮的內容。
4視頻大數據在煙草行業的應用思考
時下,煙田監控、煙葉收購站監控、生產及公用設施區監控、煙草物流配送中心監控等的視頻監控數據較多僅僅用作安防視頻使用,還未涉及到與煙草業務的關聯;隨著視頻監控建設的完善及視頻大數據技術發展,各類監控視頻數據量的增加,考慮到投資回報比,是否可以通過視頻大數據分析,將煙草業務與視頻監控相關聯,在海量的視頻監控數據中提取有益于煙草行業發展的變革或新技術呢?
4.1安防業務
基于傳統視頻監控,安防業務是傳統業務之一,通過大數據分析,有效快捷的提取安防所需要的視頻片段。同時基于視頻行為告警策略,及時告警。
4.2安全生產
結合視頻大數據分析,將以往多次生產事故監控視頻整合,通過對多次生產安全事故的分析,總結出更為安全可靠的生產規則;再則通過視頻監控與生產行為的結合,制定安全生產標準,通過聲音報警或警示燈報警等技術,在不符合標準視頻監控預定義的安全規則情況時,能夠及時報警。通過視頻監控分析,提升生產的安全性。如采用彩色網絡快球攝像機和彩色固定網絡槍式攝像機,彩色網絡快球攝像機的預制位設置應優先,根據視頻大數據分析后,系統可提供不同故障區域或設備的故障信號,各工藝段或設備的操作運行信號,通過系統集成與生產監控實現聯動,平常攝像機對正在操作或運行設備進行監控,一旦某個故障點報警,攝像機立刻自動轉動到報警點,監控中心的NVR主機開始錄像等。
4.3效率生產
結合視頻大數據分析,通過分析各個不同煙站或煙廠中的同一種生產行為,結合對海量數據進行智能分析,提取出價值數據片段,形成元數據信息庫,再通過人為加工后期數據,總結形成效率生產有用的價值信息,提供生產借鑒,提高生產效率。
4.4創新生產
通過視頻大數據分析,將以往的視頻通過軌跡分析,得出以往生產過程中各類生產動作中不必要或者多余的部分,簡化或者優化生產規則;通過對給類生產行為的總結,提出合理的建議,為生產提出創新性意見或建議,提高生產率。
5結論
系統主要實現軟件的模塊話設計,包括反射率數據分析模塊、速度分析模塊、天線運行穩定性分析模塊以及雷達組網數據分析模塊。
1.1反射率分析模塊
反射率的大小體現了氣象目標的降水粒子的密度分布及體積大小,在實際氣象技術中長期用于表示氣象目標的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數據顯示采用PPI(PlanPositionImage)顯示方式。該方式決定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構成。在設計上簡單介紹其設計流程,首先必須讀取原始數據,并判斷是否首次讀取,若為首次讀取則對其進行預處理,否則進行坐標轉換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關注的關鍵是如何進行數據的預處理。在實現上,對接收的數據進行反射率信息結構體賦值。當然該結構體包括了記錄實際仰角角度、數據文件路徑存儲、雷達波段判斷以及相關數據的偏移。通過掃描上述結構體可以實現對雷達數據的預處理。
1.2速度分析模塊
多普勒雷達采用了速度退化模糊技術以擴大其對徑向風速測量不模糊的區間。結構設計主要考慮數據顯示的徑向方式,流程設計則與反射模塊類似。當然在界面設計上,系統將提供對顏色配置的定義,使其人機交互更為快捷。
1.3天線穩定性分析模塊
天線是雷達數據采集的關鍵部位,長期以來是影響雷達運行的主要關鍵點之一。其依賴于底下的電機進行旋轉,目前大多數進口電機可以保證24小時安全運行。而運行時仰角提升和轉速的平穩性直接影響雷達數據的采集。為此,我們通過在徑向數據上采用方位角及仰角進行掃描實現曲線圖監控。通過選擇基數據再進行預處理后繪制相關曲線實現對天線運行狀態的評估。其中,曲線圖的繪制需要的參數為:縱坐標為氣象雷達實際運行的每層仰角均值;橫坐標為范圍角:0-360°。
1.4雷達組網分析模塊
按照民航局的總體規劃,未來空管將實現多氣象雷達覆蓋,在這過程,多個氣象雷達的組網將成為氣象雷達數據的主要來源。這種模式將使得數據覆蓋面更大、數據安全性更高、數據準確性更強。而與此同時帶來了雷達數據融合組網的技術難點。設計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網雷達可選數據;其次對選擇雷達數據進行數據預處理;再之則對雷達數據進行統計平均并做坐標轉換;最后進行拼圖處理。在這過程中,需要對雷達數據的強度進行自適應調整、顯示范圍自適應調整。與上述同理,系統核心在于預處理。在C#中定義List數據列表,并在定義其結構為[站點標示][距離][方位角],對于數據讀取時,需要進行插值算法處理,此時的單時數據拼接分析可以實現不同仰角和方位角的篩選。為了控制系統數據的準確性可以在前端定義雷達數據方位角表,根據表進行映射處理。通常如若出現非連續數據可以在預處理上對其進行差值補償。在C#上可以采用反差圓補償方法。
2.結束語
1.1數據采集
數據的采集是指利用傳感器、社交網絡以及移動互聯網等方式獲得的各種類型的結構化、半結構化以及非結構化的海量數據,這是一切數據分析的基礎。數據的采集需要解決分布式高速高可靠數據的采集、高速數據全映像等數據收集技術。還要設計質量評估模型,開發數據質量技術。而數據采集一般分為大數據智能感知層:主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統,實現對海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。
1.2數據預處理
數據采集的過程本身就有會有很多數據庫,但如果想達到有效分析海量數據的目的,就必將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,而且在導入基礎上做一些簡單的辨析、抽取、清洗等操作。
①抽取:因為我們通過各種途徑獲取的數據可能存在多種結構和類型,而數據抽取過程可以有效地將這些復雜的數據轉換為單一的結構或者便于處理的類型。以達到快速分析處理的目的。
②清洗:對于海量數據而言,數據所處的價值層次不一樣,就必然存在由于價值低而導致開發成本偏大的數據,還有與數據分析毫無關系的數據,而另一些數據則是完全錯誤的干擾項,所以對數據通過過濾“去噪”從而提取出有效數據是十分重要的步驟。
1.3數據的存儲與管理
當我們采集數據完成后,就需要將其存儲起來統一管理,主要途徑就是建立相應的數據庫,進行統一管理和調用。在此基礎上,需要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。還需開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、數據的去冗余及高效低成本的大數據存儲技術;以及分布式非關系型大數據管理與處理技術、異構數據的數據融合技術、數據組織技術、研究大數據建模技術、索引、移動、備份、復制、可視化技術。
1.4數據的統計分析
一般情況下,統計與分析主要就是利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。
1.5數據分析與挖掘
所謂數據挖掘是指從數據庫中的大量不完全的、有噪聲的、模糊的、隨機的實際應用數據中,揭示出隱含的、先前未知的并有潛在價值的信息的過程。與前面統計和分析過程不同的是,數據挖掘一般不會有預先設計好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別數據分析的需求。比較典型的算法有用于聚類的K-means、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰主要是用于挖掘的算法很復雜,并且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。
2數據分析的8個層次
2.1標準化報告(StandardReports)
標準化報告作為數據分析的第一個層次,要求相對較低,主要是借助相應的統計工具對數據進行歸納總結,得出包含主要參數指標的標準化報告。類似于一個銷售企業每月或者每季度的財務報表。
2.2即席查詢(AdHocReports)
用戶可以通過自己的需求,靈活地選擇查詢條件,系統就能夠根據用戶的需求選擇生成相應的統計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定制開發的,而即席查詢所有的查詢條件都是用戶自己定義的。在面向高層的數據分析軟件中,用戶隨意添加想要查詢的指標按鈕再加上相應的限制條件,就可以立即生成可視化的統計結果,不僅一目了然,而且沒有任何操作難度。
2.3多維分析(QueryDrilldown)
多維分析是指對具有多個維度和指標所組成的數據模型進行的可視化分析手段的統稱,常用的分析方式包括:下鉆、上卷、切片(切塊)、旋轉等各種分析操作。以便剖析數據,使分析者、決策者能從多個角度多個側面觀察數據,從而深入了解包含在數據中的信息和內涵。上卷是在數據立方體中執行聚集操作,通過在維級別中上升或通過消除某個或某些維來觀察更概括的數據。上卷的另外一種情況是通過消除一個或者多個維來觀察更加概括的數據。下鉆是在維級別中下降或者通過引入某個或者某些維來更細致地觀察數據。切片是在給定的數據立方體一個維上進行的選擇操作,切片的結果是得到了一個二維的平面數據(切塊是在給定的數據立方體的兩個或者多個維上進行選擇操作,而切塊的結果是得到了一個子立方塊)。轉軸相對比較簡單,就是改變維的方向。
2.4儀表盤與模擬分析(Alerts)
儀表盤用于監控一些關鍵指標。模擬分析是由操作者動態地加以調節的控件(如滑動塊、可調旋鈕、選擇框等),來控制管理決策模型行為某些參數。當操作者通過控制面板對模型中的參數值或變量值進行調節時,圖形中的曲線、柱形組或分析指標等要素就會發生相應的運動,而這種運動正好反映了該參數的變化對模型行為的影響,如果這種變動引起了模型中最優解或其他關鍵數字的變化,能夠隨時將關于這種變化的結論正確地顯示出來。
2.5統計分析(StatisticallyAnalysis)
我們知道概率論是數理統計的基礎,數理統計是在其基礎上研究隨機變量,并應用概率論的知識做出合理的估計、推斷與預測。概率論中討論的各種分布在數理統計中作為統計模型來分析處理帶有隨機誤差的數據。典型的數理統計方法有參數估計、假設檢驗和回歸分析。而統計分析主要是對用戶所關注的問題進行推斷、預測和控制的分析方法。具體可以分為以下三方面:
①描述統計:主要是集中趨勢、離散程度、分布形狀等,統計圖(方圖、箱線圖、散點圖等);
②數據的分類匯總;
③基礎統計分析:方差分析、時間序列分析、相關和回歸分析、(主成分)因子分析等統計分析方法。
2.6預測(Forecasting)
在統計分析和數據挖掘領域,對未來的預測已經有了很多數學模型以及解決具體問題的相關算法。其核心思想便是從歷史數據中找出數據的發展模式,然后以這些模式為支點,就可以對未來進行預測。
2.7預測模型(PredictiveModeling)
隨著數據分析學家對數據挖掘技術的不斷探索,出現了很多預測模型以及與之相對應的算法,但是很難確定某個模型是最精確的,因為不同的領域,不同的條件,對應的預測模型是不一樣的,所以沒有統一化的最優模型,只存在有選擇性的最優模型。下面介紹幾種典型的預測模型。
①回歸模型:回歸模型可以分為一元線性回歸模型和多元線性回歸模型。一元線性回歸模型可表示為yt=b0+b1xt+ut,該式表示變量yt和xt之間的真實關系。其中yt稱作被解釋變量(或相依變量、因變量),xt稱作解釋變量(或獨立變量、自變量),ut稱作隨機誤差項,b0稱作常數項(截距項),b1稱作回歸系數。b0+b1xt是非隨機部分,ut是隨機部分。而在很多情況下,回歸模型必包含兩個或更多自變量才能夠適應地描述經濟現象各相關量之間的聯系,這就是多元線性回歸模型需要解決的問題,其一般形式為:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是這個多元回歸問題的m個自變量,b1、b2、…、bm是回歸方程對應于各自變量的系數,又稱偏回歸系數。
②貝葉斯網絡:貝葉斯網絡是基于概率推理的數學模型,而概率推理是通過一些產量的信息來獲取其他概率信息的過程。貝葉斯網絡會建立一個有向無環圖和一個概率表集合,有向無環圖中的每一個節點便是一個隨機變量,而有向邊表示隨機變量間的條件依賴,條件概率表中的每一個元素對應有向無環圖中唯一的節點,存儲此節點對其所有直接前驅節點的條件概率。貝葉斯網絡是為了解決不定性與不完整性問題而提出的,在多個領域中獲得廣泛應用。
③基于時間序列分析的指數平滑模型在時間序列分析中指數平滑模型是最靈活和準確的方法,在經濟領域也被證明是最有效的預測模型。在不同的時間序列下,指數平滑模型可以分為簡單指數平滑法、帶有趨勢調整的指數平滑法、帶有阻尼趨勢的指數平滑法、簡單季節指數平滑法、帶有趨勢和季節調整的指數平滑法五種不復雜度的模型。
2.8最優化
(Optimization)因為優化問題往往可以帶來巨額的收益,通過一系列可行的優化,可以使收益得到顯著提高。所謂最優化就是從有限或者無限種可行的方案中選取最優的方案。如果可以通過簡單的評判,就可以確定最優方案那是最好的。但是事實不會那么簡單,所以優化技術已經發展出了一系列的理論來解決實際問題。其常用的優化技術為:
①線性規劃:當目標函數與約束函數都是線性函數時,就是一個線性規劃問題。而當同時滿足約束函數和目標函數時,則可以認為是最優解。
②整數規劃:要求決策變量取整數值的數學規劃。
③多目標規劃:指衡量一個決策優劣的標準不止一個,也就是有多目標函數。
④動態規劃:將一個復雜的問題劃分為多個階段,逐段求解,最終求出全局最優解。
3用Excel實現簡單的數據分析
①對于企業而言最重要的是利潤,所以管理者必須要從這張表中得到最關鍵也最容易得到的銷量和銷售額以及與其相關的一些數據,通常是用最基本的數理統計結果來直觀地反映該企業在某個期間的盈利情況。
②其次,我們必須要做進一步的分析。已經對整體的情況有了一定的把握,所以就可以朝著不同的方向去挖掘一些有價值的信息,為企業高層做決策提供有力的依據。對產品銷售而言,客戶結構能夠有效地反映客戶的地域分布,企業可以根據客戶的來源,在未開辟客戶的地域去尋找新的目標客戶群。而銷量結構可以直觀地反映企業最大銷量來自哪個地區,對銷量較小的地區可以加大宣傳力度或者增加銷售網點來保持各地區銷售均衡。還可以及時地調整銷售方式來擴大市場份額,而對于銷量最小的地區考慮開辟新的市場。
統計了各地區的銷售總額和平均銷售額以及兩者的對比關系。由此可以得出地區平均購買力大小,以及各地區總銷售額大小。借助圖表描述,管理者可以對企業在某段期間內的銷售狀況有一個大概的把握,只有掌握了這些的信息,才能更細化地去研究具體的影響因素。劃分等級,對于經常性大量購買的客戶必須要以最優惠的價格和最好的服務讓其滿意,以形成一個穩定的大客戶群。而對于那些少量購買的客戶,也要制定出相應合適的方案來留住客戶。所以,分析銷售額的分布情況,可以掌握客戶的購買力度而且還能及時做一些留住大客戶的舉措。
4用R語言實現數據多層次分析
R語言是一種自由軟件編程語言與操作環境,是一套完整的數據處理、計算和制圖軟件系統,它是一種用來進行數據探索、統計分析和作圖的解釋型語言。它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動地進行數據分析,甚至創造出符合需要的新的統計計算方法。而在使用R語言進行數據分析處理時,當我們遇到很大的原始數據,但用來建模的數據較小,則可以先在數據庫中進行整理,然后通過R與數據庫的接口提取數據,數據庫適合存放和整理比較規整的數據,和R中的數據框有良好的對應關系,這也是R中絕大多數統計模型的標準數據結構。數據庫中大部分的運算都不需要消耗很大的內存。
5結語