時間:2023-03-17 18:06:14
序論:在您撰寫大數據技術時,參考他人的優秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發您的創作熱情,引導您走向新的創作高度。
中圖分類號:TP334 文獻標識碼:A 文章編號:1674-098X(2014)02(a)-0048-01
“大數據”是從英語“Big Data”一詞翻譯而來的,是當前IT界熱議和追逐的對象,是繼物聯網、云計算技術后世界又一熱議的信息技術,發展迅速。截至2011年年底,全球互聯網總數據存儲量已達100億TB以上,并且以59%以上的年增長率遞增。麥肯錫公司在2011年的報告(Bigdata:the Next FrontierforInnovation)中,對這種密集型數據爆炸的現象稱為“大數據”時代的到來。大數據領域出現的許多新技術,是大數據采集、存儲、處理和呈現的有力武器。
1 大數據概念
大數據概念的前身是海量數據,但兩者有很大的區別。海量數據主要強調了數據量的規模,對其特性并沒有特別關注。而大數據對傳播速率、體積、特征等數據的各種特性進行了描述。目前對大數據最廣泛的定義是:大數據是無法在一定時間內用通常的軟件工具進行收集、分析、管理的大量數據的集合。大數據的特點一般用“4V”概括,即:Volume:數據量大,目前大數據的最小單位一般被認為是10~20TB的量級;Variety:數據類型多,包括了結構化、非結構化和半結構化數據;value:數據的價值密度很低;velocity:數據產生和處理的速度非常快。
2 大數據相關技術
2.1 大數據處理通用技術架構
大數據的基本處理流程與傳統數據處理流程的主要區別在于:由于大數據要處理大量、非結構化的數據,所以在各個處理環節中都可以采用并行處理。目前,MapReduce等分布式處理方式已經成為大數據處理各環節的通用處理方法。
MapReduce分布式方法最先由谷歌設計并實現,包括分布式文件系統GFS、MapReduce分布式編程環境以及分布式大規模數據庫管理系統Bigrable。MapReduce是一套軟件框架,包括Map和Reduce兩個階段,可以進行海量數據分割、任務分解與結果匯總,從而完成海量數據的并行處理。MapReduce的工作原理是先分后合的數據處理方式。Map即“分解”,把海量數據分割成若干部分,分給多臺處理器并行處理;Reduce即“合并”,把各臺處理器處理后的結果進行匯總操作,以得到最終結果。用戶只需要提供自己的Map函數以及Reduce函數就可以在集群上進行大規模的分布式數據處理。MapReduce將處理任務分配到不同的處理節點,因此具有更強的并行處理能力。
2.2 大數據采集
大數據的采集是指利用數據庫等方式接收發自客戶端(Web、App或者傳感器形式等)的數據。大數據采集的主要特點是并發訪問量大,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網站的并發訪問量在峰值時達到上百萬,這時傳統的數據采集工具很容易失效。大數據采集方法主要包括:系統日志采集、網絡數據采集、數據庫采集、其他數據采集等四種。
2.3 大數據分享
目前數據分享主要通過數據集市和開放數據平臺等方法實現。開放數據平臺可以提供涵蓋本地服務、娛樂、教育和醫療等方方面面的數據集合,用戶不但可以通過API訪問,還可以很方便地通過SDK集成到移動應用當中。在線數據集市除了提供下載數據的功能外,還為用戶提供上傳和交流數據的場所。數據平臺和數據集市不但吸引有數據需求用戶,還能夠吸引很多數據開發者在平臺上進行開發。
2.4 大數據預處理
數據預處理就是對采集的數據進行清洗、填補、平滑、合并、規格化以及檢查一致性等處理,并對數據的多種屬性進行初步組織,從而為數據的存儲、分析和挖掘做好準備。通常數據預處理包含三個部分:數據清理、數據集成和變換和數據規約。
2.5 大數據存儲及管理
大數據需要行之有效的存儲和管理,否則人們不能處理和利用數據,更不能從數據中得到有用的信息。目前,大數據的存儲和管理技術主要分三類:分布式文件系統、數據倉庫和非關系型數據庫(NoSOL)。
2.6 大數據分析及挖掘
大數據的分析和挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、數據挖掘、統計學、數據庫等技術,高度自動化地分析大數據,做出歸納性的推理,從中挖掘出潛在的模式,從而在大數據中提取有用信息。大數據的分析和挖掘與傳統的數據挖掘比較有兩個特點:一是通常采用并行處理的方式;二是大數據分析對實時處理的要求很高,流處理等實時處理技術受到人們歡迎。常用的方法有:機器學習、數據挖掘、模式識別、統計分析、并行處理。
2.7 大數據檢索
①數據庫實時檢索:在數據倉庫或者NoSOL等大數據存儲平臺上,或者多個不同結構的數據存儲平臺之間快速、實時地查詢和檢索不同結構的數據。②實時搜索引擎:對互聯網上的大量數據和信息進行即時、快速搜索,實現即搜即得的效果。目前各大搜索引擎都在致力于實時搜索的實現。
2.8 大數據可視化
可以提供更為清晰直觀的數據感官,將錯綜復雜的數據和數據之間的關系,通過圖片、映射關系或表格,以簡單、友好、易用的圖形化、智能化的形式呈現給用戶供其分析使用,可通過數據訪問接口或商業智能門戶實現,通過直觀的方式表達出來??梢暬c可視分析通過交互可視界面來進行分析、推理和決策;從海量、動態、不確定甚至相互沖突的數據中整合信息,獲取對復雜情景的更深層的理解;可供人們檢驗已有預測,探索未知信息,同時提供快速、可檢驗、易理解.的評估和更有效的交流手段??梢暬侨藗兝斫鈴碗s現象,診釋復雜數據的重要手段和途徑。
2.9 大數據應用
①視頻搜索;②內容分析;③理賠分析;④社交網絡分析;⑤社會分析;⑥社交媒體監控。
2.10 大數據安全
關鍵詞: 大數據; 4V特征; Hadoop; 云計算
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2015)01-13-02
Overview on big data technology
Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物聯網、云計算等新興技術的迅速發展開啟了大數據時代的帷幕。大數據技術是指從各種各樣的海量數據中,快速獲取有價值信息的技術,大數據的核心問題就是大數據技術。目前所說的“大數據”不僅指數據本身的規模大,還包括采集數據的工具、平臺和數據分析系統復雜程度大。大數據的研發目的是發展大數據技術并將其應用到相關領域,解決實際生產、生活中的各種問題,從而推動信息技術健康地可持續發展。
1 大數據的定義及主要特征
與其他新興學科一樣,目前大數據沒有一個統一的標準和定義。一般認為:大數據是由大量異構數據組成的數據集合,可以應用合理的數學算法或工具從中找出有價值的信息,并為人們帶來經濟及社會效益的一門新興學科。大數據又被稱為海量數據、大資料、巨量數據等,指的是所涉及的數據量規模巨大,以至于無法在合理時間內通過人工攫取、管理、處理并整理成為人類所能解讀的信息。這些數據來自方方面面,比如社交網絡、傳感器采集、安防監控視頻、購物交易記錄等。盡管尚無統一定義,但這些無比龐大的數據被稱為大數據。大數據具有如下4V特性[1]:
⑴ 體量Volume,是指數據存儲量大,計算量大;
⑵ 多樣Variety,是指大數據的異構和多樣性,比如數據來源豐富,數據格式包括多種不同形式,如網絡日志、音頻、視頻、圖片、地理位置信息等等;
⑶ 價值Value,是指大數據價值密度相對較低,信息海量,但是要挖掘出真正有價值的數據難度較大,浪里淘沙卻又彌足珍貴;
⑷ 速度Velocity,是指數據增長速度快,處理速度要求快。
2 大數據技術的應用領域
通過對海量數據進行采集、分析與處理,挖掘出潛藏在數據海洋里的稀疏但卻彌足珍貴的信息,大數據技術正在對經濟建設、醫療教育、科學研究等領域產生著革命性的影響,其所帶來的巨大使用價值正逐漸被各行各業的人們所感知。
2.1 金融領域
大數據的火熱應用突出體現在金融業,各大互聯網企業(谷歌、阿里巴巴等)紛紛掘金大數據,開創了新的互聯網金融模式。目前阿里巴巴的互聯網金融做得如火如荼:基金、小額信貸、余額寶和理財保險產品等等,阿里巴巴之所以能夠做火金融服務,其主要原因就在于阿里的大數據,阿里巴巴的電商平臺存儲了大量微小企業客戶及數以億計的個人用戶行為信息、交易記錄、身份數據等,擁有最好、最全的數據以及最完整的產業鏈,做P2P及個人小額信貸,具有最大優勢[2]。相反,傳統商業銀行早期就已推出的小額信貸業務,開展得并不十分順利。
2.2 市場營銷
今天的數字化營銷與傳統市場營銷最大的區別就在于精準定位及個性化。如今企業與客戶的交流渠道發生了革命性的變化,從過去的電話及郵件,發展到今天的博客、論壇、社交媒體賬戶等,從這些五花八門的渠道里跟蹤客戶,將他們的每一次點擊、加好友、收藏、轉發、分享等行為納入到企業的銷售漏斗中并轉化成一項巨大的潛在價值,就是所謂的360度客戶視角。例如谷歌的銷售策略主要著眼于在線的免費軟件,用戶使用這些軟件時,無形中就把個人的喜好、消費習慣等重要信息提交給了谷歌,因此谷歌的產品線越豐富,他們對用戶的理解就越深入,其廣告定位就越精準,廣告所攫取的價值就越高,這是正向的循環。
2.3 公眾服務
大數據的另一大應用領域是公眾服務。如今數據挖掘已經能夠預測海嘯、地震、疾病暴發,理解交通模型并改善醫療和教育等。例如,可采用神經網絡和基于地震時間序列的支持向量機方法來預測地震的大概方位、時間、震級大小等重要信息,為通用地震模擬程序提供關鍵的數據,從而對地震進行早期預警,以使防震抗災部門可以提前做好應對措施,避免大量的人員傷亡及財產損失;再如,將各個省市的城鎮醫療系統、新農村合作醫療系統等全部整合起來,建立通用的電子病歷等基礎數據庫,實現醫院之間對病患信息的共享,提高患者就醫效率[3];電力管理系統通過記錄人們的用電行為信息(做飯、照明、取暖等),大數據智能電網就能實現優化電的生產、分配及電網安全檢測與控制,包括大災難預警與處理、供電與電力調度決策支持和更準確的用電量預測等,并通過數據挖掘技術找出可行的節能降耗措施,以實現更科學的電力需求分配管理。
2.4 安防領域
安防領域中最重要的就是視頻監控系統,從早期看得見到現在看得遠、看得清,視頻監控是典型的數據依賴型業務,依賴數據說話。尤其是高清、超高清監控時代的到來,會產生巨量的視頻數據。這些巨量視頻監控數據中,多數是冗余無用的,只有少數是關鍵數據,如何剔除這些無用數據,一直是人們研究問題的焦點。在大數據技術的支撐下,通過對巨量視頻數據的分析與處理,可實現模糊查詢、精準定位、快速檢索等,能夠對高清監控視頻畫質進行細節分析,智能挖掘出類似行為及特征的數據,從而為業務分析和事件決策判斷提供精準依據。
3 大數據處理關鍵技術
3.1 數據備份技術
在大數據時代,如何做好數據的安全備份至關重要。數據備份是數據容災的前提,具體是指當出現某種突發狀況導致存儲系統中的文件、數據、片段丟失或者嚴重損壞時,系統可準確而快速地將數據進行恢復的技術。數據容災備份是為防止偶發事件而采取的一種數據保護手段,其核心工作是數據恢復,根本目的是數據資源再利用。
3.2 Hadoop
大數據時代對于數據分析、管理等都提出了更高層次的要求,傳統的關系型數據庫和數據分析處理技術已經不能滿足大數據橫向擴展的需求。為了給大數據處理、分析提供一個性能更好、可靠性更高的平臺,Apache基金會開發了一個開源平臺Hadoop[4],該平臺用Java語言編寫,可移植性強,現在Hadoop已經發展為一個包括HDFS(分布式文件系統 )、HBase(分布式數據庫)等功能模塊在內的完整生態系統,成為目前主流的大數據應用平臺。
3.3 云計算
如果把各種各樣的大數據應用比作在公路上行駛的各種汽車,那么支撐這些汽車快速運行的高速公路就是云計算,云計算是大數據分析處理技術的核心。正是由于云計算在海量信息存儲、分析及管理方面的技術支持,大數據才有了如此廣闊的用武之地。谷歌的各種大數據處理技術和應用平臺都是基于云計算,最典型的就是以UFS(UIT云存儲系統)、MapReduce(批處理技術)、BigTable(分布式數據庫)為代表的大數據處理技術以及在此基礎上產生的開源數據處理平臺Hadoop[5]。
4 大數據應用帶來的信息安全隱患及應對策略
大數據時代,海量數據通常存儲在大規模分布式的網絡節點中,管理相對分散,而且系統也無法控制用戶進行數據交易的場所,因此很難辨別用戶的身份(合法及非法用戶),容易導致不合法用戶篡改或竊取信息;此外,大數據存儲系統中包含了海量的個人用戶隱私數據及各種行為的記錄信息,如何在大數據的挖掘利用中確定一個信息保護和開放的尺度, 是大數據面臨的又一難題。為了合理利用大數據并有效規避風險,我們提出以下四點建議:
⑴ 國家出臺相關政策,加強頂層設計,保障數據存儲安全;
⑵ 增強網絡安全防護能力,抵御網絡犯罪,確保網絡信息安全;
⑶ 提高警惕積極探索,加大個人隱私數據保護力度;
⑷ 深化云計算安全領域研究,保障云端數據安全。
5 結束語
在當今信息知識爆炸的時代,大數據技術已經被廣泛應用于商業金融、電力醫療、教育科研等領域。隨著數據挖掘技術的不斷進步,相關信息行業競相從規模龐大、結構復雜的大數據海洋中攫取更多有價值的數據信息用于分析、解決現實生活中的各種實際問題,從而實現信息技術的快速健康發展。本文梳理了大數據的基本概念及4V特征,總結歸納了大數據技術的四大熱門應用領域及三大核心處理技術,分析了大數據技術帶來的諸如信息竊取及篡改、個人隱私數據泄露等信息安全隱患,并提出了相應的解決措施及建議。當然,目前大數據技術的研究尚處在起步階段,還有許多深層次的問題亟待解決,如大數據的存儲管理是通過硬件的簡單升級還是通過系統的重新設計來解決,大數據4V特征中起關鍵作用的是什么,大數據技術的應用前景是什么,等等。就目前來看,未來大數據技術的研究之路還很長,需要我們用更加敏銳的洞察力來分析和研究。
參考文獻:
[1] BARWICK H. The "four Vs" of big data. Implementing Information
Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.
[2] 韋雪瓊,楊嘩,史超.大數據發展下的金融市場新生態[Jl.時代金融,
2012.7:173-174
[3] 張敬誼,佘盼,肖筱華.基于云計算的區域醫療信息化服務平臺的研
究[J].計算機科學,2013.40(10):360-365
1.1 大數據及其影響
大數據(Big Data)是目前最重要的科學、技術和社會話題。借用IDC數據公司的定義:“大數據是一種新一代的技術和架構,具備高效率的捕捉、發現和分析能力,能夠經濟地從類型繁雜、數量龐大的數據中挖掘出色價值。”
大數據定義有著如下的基本前提和含義。
① 大量的數據:大數據概念源于數據的爆炸性增長。用世界著名的咨詢公司高德納(Gartner)研究報告的描述:“同一類型的數據量快速增長;數據增長速度的加快;數據多樣性、新數據來源和新數據種類的不斷增加?!?/p>
② 多種類型數據積累:新的數據存儲和數據采集的技術發展使巨量數據的采集、收集、存儲成為可能。網絡技術、移動設備、數字傳感器、數碼攝影/攝像、監控影像、衛星定位系統、遙感技術、氣候和環境監測技術等等,每時每刻都在各種形式、各種類型的大量數據。
③ 計算技術的進步與發展:現代計算技術、網絡技術、多媒體技術和數據庫處理技術等可以處理各種形式的海量數據,產生出大量的高附加值的數據、結果、狀態和知識。
④ 數據處理能力成為戰略能力:數據量的激增、數據類型的多樣、技術平臺對數據的綜合處理,造成了知識邊界擴展、知識價值提升、知識衍生能力加快,它極大地影響到了企業、個人、社會和政府的決策,極大地促進了社會生產力的發展,使掌握大數據技術者獲得了競爭優勢和難于模仿的核心競爭力。因此,大數據技術也成為了國家的核心戰略資源。
大數據的含義廣博、技術領域廣泛、技術平臺多樣、作用效果巨大、影響意義深遠。理解大數據的理論、方法和架構,適應大數據的變革與發展,分享大數據所帶來的種種便利和收益,便能夠在大數據時代占領先機。
1.2 大數據對數據庫技術的影響
大數據的宗旨是處理數據,數據庫技術自然占據核心地位。而大數據環境下的數據庫技術也具有明顯的特殊性。
1.2.1 大數據環境下數據處理技術面臨的新特點
數據量宏大。對數據庫技術影響最大、最直接的方面莫過于數據的爆炸性增長。即使先不考慮數據類型的變化,需要處理的數據從MB擴展到GB,現在再擴展到TB,不遠的將來數據庫將經常面對PB量級的數據,這必然對數據庫的硬件架構、數據庫系統結構和數據庫應用產生重大的影響。
數據形式多樣。另外一個對數據庫技術產生重要影響的因子是數據的多樣化,傳統數字、圖像、照片、影像、聲音等多種數據資源需要進行處理,并且和傳統關系式數據不同的,許多數據格式中的有價值數據并不多,例如多張圖片定對象的變化,連續視頻影像中對特殊對象的跟蹤等等,其數據抽取方式、過濾方法和存儲、計算方式均有別于傳統數據庫。
單機或小型局域網的數據庫處理無法滿足。當前,數據量爆炸式增長,數據類型日趨多樣,傳統關系數據庫的處理能力已難于滿足,需要新的數據庫處理技術。
傳統的并行數據庫的靈活性具有局限性。并行數據庫系統取得了輝煌的成績,但是它的靈活性不佳,彈性受限,系統規模的收縮或擴展成本非常高。這樣的系統適合于“相對固定結構”的計算結構,例如機銀行業務管理系統或城市交通管理系統等。
結構化、半結構化與非結構化形式并存。讓數據庫有能力處理這些半結構化和非結構化(有時不作區分)數據變成了新型數據庫技術的一項迫切要求。
對結果要求的模糊化。在大數據的時代,計算技術不僅限于回答“是/非”問題,而是需要更多的模糊化結果。例如,流感有很可能在一周后流行、近期可能發生5級左右地震、近一周國際往返機票將上漲……這些答案并不精確,但足以指導人們的活動。非結構化數據的處理結果常常是給出模糊化的答案。
新數據庫技術的出現與挑戰。新需求的出現,促使了新技術的產生,為處理非結構化數據,Apache、Google、Amazon等公司分別開發了適應各自需要的新型數據庫系統,相關的專家經過分析和總結提出了NoSQL的設計理念,并創建了許多成功的產品。
1.2.2 新型數據庫技術的特點
與傳統數據庫技術相比較,新型數據庫技術具有一些明顯的特點,具體如下:
可處理的數據總量和數據類型增加。不再為數據結構化或數據代表性而人為地選取部分數據或進行數據抽樣;不再靠樣本規模的大小來控制結果的置信區間和置信度。新的數據庫處理技術試圖利用“全部數據”,完成對結果的計算和推斷。
使用更多的非結構化數據,而不是片面地強調全部使用結構化數據。在非結構化的高復雜度、高數據量、多種數據類型的情況下,允許結論和結果的“不精確”,允許追求“次優解”。體現大數據技術“以概率說話”的特點。
不再試圖避免或降低數據的混雜性,而是把“使用全部數據”作為追求“次優解”的途徑。即在復雜、混亂、無結構化與確定、規整、結構化數據之間做出平衡。
在遇到“使用全部數據,得出模糊化結果”與“實用部分數據,得出準確結論”的選擇時,新型數據庫技術一般會選擇前者,從一個更全面的角度利用更多的數據資源去尋找答案。
科學地在因果關系與相關關系中做出抉擇。如果數據總體支持因果關系的判別和斷言,則像傳統數據庫那樣提供因果關系斷語;如果數據計算量宏大、成本高昂或條件不具備,則把關注點由“因果關系”調整為“相關關系”——將追求“最優解”變為追求“次優解”或“模糊解”。自然地,這種相關關系的選擇不能是隨機的,而是預先設計和規劃好的。
不同的數據庫開發理念,不同的應用目標,不同的技術方案,早就了新型數據庫豐富多彩、特點各異的局面。
1.3 從傳統關系數據庫到非關系數據
在計算機系統結構剛剛趨于穩定的1970年,IBM公司的Edgar Codd(科德)首先提出了關系數據庫的概念和規則,這是數據庫技術的一個重要的里程碑??频露x的關系數據庫具有結構化程度高、數據冗余量低、數據關系明確、一致性好的優點。關系數據庫模型把數據庫操作抽象成選擇、映射、連接、集合的并差交除操作、數據的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結構化查詢語言則把關系數據庫及其操作模式完整地固定下來,其理論和做法延續至今,被作為數據庫技術的重要基石。關系數據庫中定義的關系模型的實質是二維表格模型,關系數據庫就是通過關系連接的多個二維表格之間的數據集合。當前流行的數據庫軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關系數據庫。
到二十世紀八十年代后期,IBM的研究員提出了數據倉庫(Data Warehouse)的概念,4年后Bill Inmon給出了被大家廣泛接受的數據倉庫定義:“數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理中的決策制定?!睌祿}庫的進步在于,它把決策支持定為數據庫中數據組織和管理的目標,從而把智能性和決策能力融入到數據庫中。Inmon之后,Ralph Kimball建立了更加方便、實用的“自底向上”數據倉庫架構并稱之為“數據集市”(Data Mart),這種技術受到企業及廠家的歡迎并采納實施。雖然數據集市被歸并為數據倉庫,但是它的出現誘發了商務智能和聯機分析技術的流行。
隨著數據庫在企業中的廣泛應用,企業收集了大量的數據,如何從已有數據中提取對企業運營和決策具有重要價值的信息,成為了數據庫使用者和開發者關系的話題?!瓣P系數據庫之父”科德再次走在了前面,提出多維數據庫和多維分析的概念,這便是“聯機分析處理”(OLAP),使得數據庫已經顯現了“智能性”特點。從數據倉庫中產生的OLAP又反過來促進和推動數據倉庫技術的更深層的發展。
2.1 大數據數據庫的特點
傳統的關系數據庫,從其創立至現在,長期占據數據庫的絕對統治地位。但是,數據挖掘、商業智能和可視化技術的發展,特別是它們處理非結構化數據的能力,動搖了傳統數據庫的牢固地位。于是善于處理非結構化數據的種種數據庫工具大量產生,這其中必須優先提及的便是NoSQL(意為Not Only SQL)及NewSQL(意為New SQL)兩大數據庫陣營。
現在隨著大數據時代的到來,由Carlo Strozzi開創的NoSQL以其技術上的先進性、方便性得到了越來越多的認可。NoSQL改變了數據的定義范圍,其“數據類型”可以是文本、圖片、影像、網頁,也可以是整個文件;NoSQL數據庫是非關系式的、數據間的關系更加復雜、多樣,類型和相互關系具有多種擴展可能、存儲方式也多采用分布式結構。經過十多年的發展,NoSQL取得了成功,采用NoSQL技術的產品也不斷增長,目前NoSQL網站上()已經收集了150余個相關產品,人們也把采用類似NoSQL結構和原理的數據庫統稱為NoSQL數據庫。
最初NoSQL有意排斥關系數據庫的ACID規則和SQL特性(后發現其弱點又在一定程度和一定范圍內支持數據的一致性要求和SQL特性)。NoSQL堅持分布式領域的CAP理論,CAP的含義為:
Consistency,一致性。數據一致更新,所有節點訪問同一份最新的數據副本;
Availability,可用性。對數據更新具備高可用性;
Partition tolerance,分區容錯性。能容忍網絡分區。
CAP理論主張任何基于網絡的數據共享系統,都最多只能擁有以下三條中的兩條。而這種“三取二”的法則以及具體理解與執行的爭論就一直存在。想同時滿足三者,或者過分強化割舍三者之間聯系均會破壞數據系統的效率和效果。32歲便獲得加州大學伯克利分校終身教授的Eric Brewer提出了BASE理論(Basically Available, Soft state, Eventually consistent;基本可用、軟狀態、最終一致性),它用一種更注重可用性、更便于理解的方式解釋分布式系統的特點。
NewSQL注意到關系數據庫的靈活性不足、數據庫互鎖機制效率低下的特點,同時也意識到NoSQL不支持SQL所帶來的不便,它采用了一種近似折中的方案,既支持SQL并保證一定程度的數據一致性,同時也提供NoSQL數據庫的非關系數據處理的擴展功能,因而從產生之初便受到業界的喜愛,相關產品不斷涌現。NoSQL和NewSQL常見產品及其分類情況如圖所示。
2.2 NoSQL及其發展趨勢
在NoSQL潮流中,最重要的莫過于Apache基金會的Hadoop。它是一個領導者,是一個典型的分布式文件系統,是一個開源系統。用戶可以在不了解分布式底層細節的情況下,借助Hadoop開發分布式程序,它取得了成功,成為分布式數據處理界的巨獸(Hadoop的Logo就是只大象)。 現在甚至出來了“無分布不Hadoop”——每個傳統的數據庫提供商都急切地聲明支持Hadoop。關系數據庫的傳統霸主Oracle公司也將Hadoop集成到自己的NoSQL數據庫中,Microsoft、Sybase、IBM也加入了收納Hadoop功能的競賽中。
第二位領導者,MongoDB,是一個成功的文檔處理型數據庫系統,它被稱為“非關系式數據庫中最像關系式數據庫的產品”。MongoDB查詢功能強大,特別適合高性能的Web數據處理。
Cassandra是這個領域中的一個另類產品,它兼有鍵值數據庫和列值數據庫兩者的長處,它的查詢功能很優秀。雖然運行Cassandra集群難度較高,但它升級后的分析能力使得很多人感到驚訝。
Redis也是相當好的一個產品。對故障恢復的良好支持以及使用Lua的服務器端腳本語言是明顯區別于其他軟件之處。使用Lua確實帶來了一些震動,因為更多的人喜歡和習慣JavaScript服務器端語言。但是,Lua是一個整潔的語言,它并為Redis開啟了潘多拉盒子。
CouchBase在可擴展性和其他潛在因素,使其看起來是一個很好的選擇,盡管Facebook以及Zynga面臨著關鍵開發者離開的風波。CouchDB會變得更好抑或相反?只要數據庫做得好受眾就會歡迎,現在看來,它確實做的很好。
還需要提及的是Riak,在功能性和監控方面它也有了巨大的提升。在穩定性方面,它繼續得到大家的贊美:“像巨石一般穩定、可靠且不顯眼……”。Riak 數據模塊化方面做得很有特色。
在圖中,涉及了多個維度:關系型的與非關系型的、分析型的或操作型的、NoSQL類型與NewSQL類型的。最后的兩個分類中,對于NoSQL有著名的子分類“鍵值類數據庫、文檔數據庫、圖存數據庫和列存數據庫。對于NewSQL本已建立“存儲引擎、簇享數據、云服務”等類別。
關鍵詞:大數據 數據挖掘 營銷
中圖分類號:F49 文獻標識碼:A 文章編號:1007-9416(2015)030-0209-01
近幾年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。2012 年3 月,奧巴馬公布了美國《大數據研究和發展計劃》,標志著大數據已經成為國家戰略,上升為國家意志。從硅谷到北京,大數據的話題傳播迅速。
1 大數據時代
隨著計算機技術全面融入社會生活,經過半個多世紀的發展,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。最先經歷信息爆炸的學科,如天文學和基因學,創造出了“大數據”這個概念。
1.1 大數據時代產生的背景
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來?!贝笠幠Ia、分享和應用海量數據的時代之所以能夠開啟,源于信息科技的進步、互聯網與云計算技術和物聯網的發展。
(1)信息科技的進步。信息處理、信息存儲和信息傳遞是信息科技的三個主要支撐,存儲設備性價比不斷提升、網絡帶寬的持續增加,為大數據的存儲和傳播提供了物質基礎。
(2)互聯網與云計算技術。互聯網時代,電子商務、社交網絡和移動通信產生了大量結構化和非結構化的數據,以云計算為基礎的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數據存儲下來,并隨時進行分析與計算?;ヂ摼W領域的公司最早重視數據資產的價值,他們從大數據中淘金,并且引領著大數據的發展趨勢。
(3)物聯網的發展。眾所周知,物聯網時代所創造的數據不是互聯網時代所能比擬的,而且物聯網的數據是異構的、多樣性的、非結構和有噪聲的,最顯著的特點是是它的高增長率。大數據是物聯網中的關鍵技術,物聯網對大數據技術的要求更高,它的發展離不開大數據。
1.2 大數據與數據挖掘
Google、Amazon、Facebook、Twitter,這些稱霸全球互聯網的企業,它們的成功都具備一個共同的因素,就是收集分析海量的各種類型的數據,并能夠快速獲取影響未來的信息的能力?!百徺I了此商品的顧客還購買了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統了,而創造出這個系統的正是Amazon。Amazon 通過分析商品的購買記錄、瀏覽歷史記錄等龐大的用戶行為歷史數據,并與行為模式相似的其他用戶的歷史數據進行對照,提供出最適合的商品推薦信息。Facebook 可以為用戶提供類似“也許你還認識這些人”的提示,這種提示可以準確到令人恐怖的程度,而這正是對龐大的數據進行分析而得到的結果。這種以數據分析為核心的技術就是數據挖掘(data mining)。
從技術角度看,數據挖掘是從大量的、復雜的、不規則的、隨機的、模糊的數據中獲取隱含的、人們事先沒有發覺的、有潛在價值的信息和知識的過程。從商業角度來說,數據挖掘是從龐大的數據庫中抽取、轉換、分析一些潛在規律和價值,從中獲取輔助商業決策的關鍵信息和有用知識。大數據概念的提出,將為數據挖掘技術的發展和應用帶來一個很大的機遇。
2 數據挖掘
數據挖掘旨在從大數據中提取隱藏的預測性信息,用便于理解和觀察的方式反映給用戶,作為決策的依據。
2.1 數據挖掘原理
數據挖掘又稱為數據庫中的知識發現(Knowledge Diseoveryin Databases,KDD),是一個從數據庫或數據倉庫中發現并抽取隱含的、明顯未知的、具有潛在用處的信息的過程。數據挖掘一般流程主要包括三個階段:數據準備、數據挖掘、結果解釋和評價。在數據挖掘的處理過程中,數據挖掘分析方法是最為關鍵的。
(1)數據準備。數據準備是從海量數據源得到數據挖掘所用的數據,將數據集成到一起的過程。由于數據收集階段得到的數據可能有一定的污染,即數據可能存在不一致,或有缺失數據、臟數據的存在,因此需通過數據整理,對數據進行清洗及預處理。
(2)數據挖掘。是數據挖掘中最關鍵的一步,使用智能的方法提取數據模式,例如決策樹、分類和聚類、關聯規則和神經網絡等。首先決定要提取什么樣的模型,然后選取相應的算法參數,分析數據從而得到可能形成知識的模式模型。
(3)結果解釋和評價。數據挖掘后的結果需要轉換成用戶能夠理解的規則或模式,并根據其是否對決策問題具有實際意義進行評價。
2.2 數據挖掘技術在營銷中的應用
無差別的大眾媒體營銷已經無法滿足零和的市場環境下的競爭要求。精準營銷是企業現在及未來的發展方向,在精準營銷領域,最常用的數據挖掘分析方法包括分類、聚類和關聯三類。
(1)關聯規則。挖掘關聯規則就是發現存在于大量數據集中的關聯性或相關性,例如空間關聯挖掘出啤酒與尿布效應;時間關聯挖掘出孕嬰用品與家居裝修關系;時間關聯挖掘出調味品、紙巾與化妝品的消費等。
此外,關聯規則發現也可用于序列模式發現。序列模式發現的側重點在于分析數據項集在時間上或序列上的前后(因果)規律,可以看作是一種特定的關聯規則。例如顧客在購買了打印機后在一段時間內是否會購買墨盒。
(2)分類分析。分類是假定數據庫中的每個對象屬于一個預先給定的類,從而將數據庫中的數據分配到給定的類中。它屬于預測性模型,例如在銀行業,事先定義用戶的信用狀況分為兩類:信用好和信用壞,對于一個信用狀態未知的用戶,如果需要確定其信用度,可以采用“決策樹”法構建一個分類模型,決策樹方法著眼于從一組無次序、無規則的客戶數據庫中推理出決策樹表現形式的分類規則。決策樹的非葉子節點均是客戶的一些基本特征,葉子節點是客戶分類標識,由根節點至上而下,到每個葉子節點,就生成了一條規則,由該決策樹可以得到很多規則,構成了一個規則集合,從而進行數據分析。
(3)聚類分析。聚類是將物理或抽象對象的集合進行分組,然后組成為由類似或相似的對象組成的多個分類的分析過程,其目的就是通過相似的方法來收集數據分類。為品牌找客戶,回答品牌“誰來賣”是精準營銷首先要解決的問題,科學細分客戶是解決這一問題的有效手段。聚類可以將目標客戶分成多個類,同一個類中的客戶有很大的相似性,表現在購買行為的高度一致,不同類間的客戶有很大的相異性,表現在購買行為的截然不同。
3 結語
大數據時代背景下“數據成為資產”,數據挖掘技術作為支撐精準營銷的重要手段,將它應用于營銷行業的決策中,不僅拓展了數據挖掘技術的應用范圍,而且大數據時代的數據挖掘技術可以幫助企業獲得突破性回報。
參考文獻
[1]維克托?邁爾―舍恩伯格;肯尼思?庫克耶.大數據時代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.
[2]王偉玲.大數據產業的戰略價值研究與思考.技術經濟與管理研究[J],2015(1).
[3]俞立平.大數據與大數據經濟學[J].中國軟科學,2013(7):177-183.
關鍵詞:大數據;數據庫集群技術;分布集群
一、分布集群數據庫在大數據中的應用
目前,許多數據增長率很高的大型數據庫系統正被用于改善全球人類活動,如通信、社交網絡、交易、銀行等,分布集群數據庫已成為提高數據訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數據訪問,分布集群數據庫的問題不僅在于如何管理大量的數據,而且在于如何組織分布式存儲中的數據模式。智能數據組織是提高檢索速度、減少磁盤I/O數量、縮短查詢響應時間的最佳方法之一?;谝巹t的聚類是提供數據庫自動聚類和數據存儲模式解釋的解決方案之一,基于規則的集群通過分析屬性和記錄上的數據庫結構,將數據模式表示為規則。使用不同規則池分區的每個集群,每個規則與內部集群中的規則相似,與外部集群中的規則不同。分布集群數據庫是一種有向圖結構的進化優化技術,用于數據分類,在緊湊的程序中具有顯著的表示能力,這源于節點的可重用性,而節點本身就是圖形結構的功能。為了實現基于規則的集群,分布集群數據庫可以通過分析記錄來處理數據集的規則提取。分布集群數據庫的圖形結構由三種節點組成:起始節點、判斷節點和處理節點。開始節點表示節點轉換的開始位置;判斷節點表示要在數據庫中檢查的屬性。分布集群數據庫規則提取的節點準備包括兩個階段:節點定義和節點排列。節點定義的目的是準備創建規則,節點排列是選擇重要的節點,以便高效地提取大量規則。節點排列由以下兩個順序過程執行,第一個過程是查找模板規則,第二個過程是結合第一個過程中創建的模板生成規則。提取模板以獲得數據集中經常發生的屬性組合。在模板提取過程中,分布集群數據庫規則提取中只使用了少數幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規則的方法相比,該節點排列方法具有更好的聚類結果,這兩個過程中的規則生成都是通過圖結構的演化來實現。
二、在線規則更新系統的應用
在線規則更新系統用于通過分析所有記錄從數據集中提取規則,在大數據應用中,每個節點都有自己的節點號,描述每個節點號的節點信息。程序大小取決于節點的數量,這會影響程序創建的規則的數量。起始節點表示根據連接順序執行的判斷節點序列的起始點,開始節點的多個位置將允許一個人提取各種規則。判斷節點表示數據集的屬性,顯示屬性索引。在大數據應用環節,從每個起始節點開始的節點序列用虛線a、b和c表示,節點序列流動,直到支持判斷節點的下一個組合不滿足閾值。在節點序列中,如果具有已出現在上一個節點序列,將跳過這些節點。在更新每個集群中的規則時,重要的是要找到與最新數據不匹配的屬性。因此,規則更新中要考慮的屬性由以下過程確定。當計算集群中每個屬性和數據之間的輪廓值時,閾值設置為0.85,只有輪廓值低于0.85的屬性。將為規則更新過程中的判斷節點的屬性選擇。一些數據的庫存值和權重值低于0.85,因此這些值不包括在國民生產總值的規則更新中。在線規則更新系統中包含用于更新規則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質量的錨定點,進而影響輪廓值。在線規則更新系統應用中,完成主要的規則提取過程,這是一個標準的規則提取,在線規則更新系統考慮到數據集中的所有屬性。執行該過程,對初始數據集進行初始集群;改善規則更新過程,僅對輪廓值低于閾值的數據執行。
三、大規模并行處理技術的應用
大規模并行處理技術主要用于編寫和調試現代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數據應用中,會產生很多數據,在數據的分析和計算中,應該結合編程技術,標準語言是面向傳統體系結構的,這就是為什么編譯器不能使用所有可能的DSP體系結構以最佳效率生成代碼的原因。為了獲得一個良好的優化代碼,有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務,可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器,使用并行結構化的編程語言可以獲得比在C/C++中翻譯的應用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內核的并行性和其他特性。低級匯編代碼是由所有編譯器生成的,但是它們與傳統的基于文本的語言(如C/C++)一起工作。大數據應用環節,在數據分類和計算中,當兩個計算操作在不同的操作單元上執行時,才能在一個dsp核心的vliw命令中并行執行兩個計算操作。根據運算執行單元的不同,計算運算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執行兩個操作成為可能。第一種類型包括由算術和邏輯單元執行的操作,第二種類型包括由乘法器、移位器ms執行的操作。在模板中,標記“1”表示第一種類型的標識,標記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數據依賴關系,則可以進行并行化,DSP核心的并行性是通過在一個核心中存在多個操作單元來保證的。在大數據計算和分析中,如果有足夠多的通用寄存器來執行這兩個操作,并且它們可以并行執行,代碼就會并行化,提升數據計算的效率。
關鍵詞:大數據 數據挖掘 方法
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)04-0222-01
1 大數據時代數據挖掘的重要性
隨著互聯網、物聯網、云計算等技術的快速發展,以及智能終端、網絡社會、數字地球等信息體的普及和建設,全球數據量出現爆炸式增長,僅在2011年就達到1.8萬億GB。IDC(Internet Data Center,互聯網絡數據中心)預計,到2020 年全球數據量將增加50倍。毋庸置疑,大數據時代已經到來。一方面,云計算為這些海量的、多樣化的數據提供存儲和運算平臺,同時數據挖掘和人工智能從大數據中發現知識、規律和趨勢,為決策提供信息參考。
如果運用合理的方法和工具,在企業日積月累形成的浩瀚數據中,是可以淘到沙金的,甚至可能發現許多大的鉆石。在一些信息化較成熟的行業,就有這樣的例子。比如銀行的信息化建設就非常完善,銀行每天生成的數據數以萬計,儲戶的存取款數據、ATM交易數據等。
數據挖掘是借助IT手段對經營決策產生決定性影響的一種管理手段。從定義上來看,數據挖掘是指一個完整的過程,該過程是從大量、不完全、模糊和隨機的數據集中識別有效的、可實用的信息,并運用這些信息做出決策。
2 數據挖掘的分類
數據挖掘技術從開始的單一門類的知識逐漸發展成為一門綜合性的多學科知識,并由此產生了很多的數據挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實際需要,現對數據挖掘技術進行如下幾種分類:
2.1 按挖掘的數據庫類型分類
利用數據庫對數據分類成為可能是因為數據庫在對數據儲存時就可以對數據按照其類型、模型以及應用場景的不同來進行分類,根據這種分類得到的數據在采用數據挖掘技術時也會有滿足自身的方法。對數據的分類有兩種情況,一種是根據其模型來分類,另一種是根據其類型來分類,前者包括關系型、對象-關系型以及事務型和數據倉庫型等,后者包括時間型、空間型和Web 型的數據挖掘方法。
2.2 按挖掘的知識類型分類
這種分類方法是根據數據挖掘的功能來實施的,其中包括多種分析的方式,例如相關性、預測及離群點分析方法,充分的數據挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時,在上述分類的情況下,還可以按照數據本身的特性和屬性來對其進行分類,例如數據的抽象性和數據的粒度等,利用數據的抽象層次來分類時可以將數據分為三個層次,即廣義知識的高抽象層,原始知識的原始層以及到多層的知識的多個抽象層。一個完善的數據挖掘可以實現對多個抽象層數據的挖掘,找到其有價值的知識。同時,在對數據挖掘進行分類時還可以根據其表現出來的模式及規則性和是否檢測出噪聲來分類,一般來說,數據的規則性可以通過多種不同的方法挖掘,例如相關性和關聯分析以及通過對其概念描述和聚類分類、預測等方法,同時還可以通過這些挖掘方法來檢測和排除噪聲。
2.3 按所用的技術類型分類
數據挖掘的時候采用的技術手段千變萬化,例如可以采用面向數據庫和數據倉庫的技術以及神經網絡及其可視化等技術手段,同時用戶在對數據進行分析時也會使用很多不同的分析方法,根據這些分析方法的不同可以分為遺傳算法、人工神經網絡等等。一般情況下,一個龐大的數據挖掘系統是集多種挖掘技術和方法的綜合性系統。
2.4 按應用分類
根據數據挖掘的應用的領域來進行分類,包括財經行業、交通運輸業、網絡通信業、生物醫學領域如DNA等,在這些行業或領域中都有滿足自身要求的數據挖掘方法。對于特定的應用場景,此時就可能需要與之相應的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數據挖掘技術可以在所有的行業中都能使用的技術,每種數據挖掘技術都有自身的專用性。
3 數據挖掘中常用的方法
目前數據挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經網絡算法。以下對這四種算法進行一一解釋說明。
遺傳算法:該算法依據生物學領域的自然選擇規律以及遺傳的機理發展而來,是一種隨機搜索的算法,利用仿生學的原理來對數據知識進行全局優化處理。是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。這種算法具有隱含并行性、易與其它模型結合等優點從而在數據挖掘中得到了應用。
決策樹算法:在對模型的預測中,該算法具有很強的優勢,利用該算法對龐大的數據信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優勢也比較明顯,在利用這種算法對數據進行分類時非常迅速,同時描述起來也很簡潔,在大規模數據處理時,這種方法的應用性很強。
粗糙集算法:這個算法將知識的理解視為對數據的劃分,將這種劃分的一個整體叫做概念,這種算法的基本原理是將不夠精確的知識與確定的或者準確的知識進行類別同時進行類別刻畫。
神經網絡算法:在對模型的預測中,該算法具有很強的優勢,利用該算法對龐大的數據信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優勢也比較明顯,在利用這種算法對數據進行分類時非常迅速,同時描述起來也很簡潔,在大規模數據處理時,這種方法的應用性很強。光纜監測及其故障診斷系統對于保證通信的順利至關重要,同時這種技術方法也是順應當今時代的潮流必須推廣使用的方法。同時,該診斷技術為通信管網和日常通信提供了可靠的技術支持和可靠的后期保證。
參考文獻
[1]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(01):146-169.