隨著互聯(lián)網(wǎng)的飛速發(fā)展及計算機技術的日益進步,人們的日常生活越來越依賴于互聯(lián)網(wǎng)。即時通訊、網(wǎng)絡購物、社交網(wǎng)站以及微博、微信等典型的互聯(lián)網(wǎng)應用已成為了人們日常生活中不可或缺的一部分,既滿足了人們情感交流的需要,又給人們的物質生活帶來了極大的便利。反過來,人們對于互聯(lián)網(wǎng)的廣泛使用也給網(wǎng)絡留下了越來越龐大的數(shù)據(jù)。這些數(shù)據(jù)包括:用戶上傳的各類文字、照片、視頻以及用戶在各類網(wǎng)站留下的日志記錄等。這類數(shù)據(jù)的規(guī)模變得日益龐大,例如,百度一家公司擁有的數(shù)據(jù)量就高達數(shù)百PB(1 PB = 1,024 TB)。歸納起來,這類數(shù)據(jù)具有4V特征:Volume(數(shù)據(jù)量大)、Variety(數(shù)據(jù)種類多)、Value(價值密度低)、Velocity(處理速度要快)。近幾年來,互聯(lián)網(wǎng)應用及網(wǎng)絡接入帶寬都獲得了長足發(fā)展,毫無疑問,大數(shù)據(jù)時代已經(jīng)來臨。
大數(shù)據(jù)的興起給網(wǎng)絡領域的科學研究和工程實踐帶來了革命性的變化,這也是這幾年來大數(shù)據(jù)一直為專家學者及工程師們在各類場合所“津津樂道”的原因?偨Y起來,大數(shù)據(jù)所帶來的變化主要體現(xiàn)在以下幾點:
1、當前,數(shù)據(jù)的發(fā)展演進已由DB(Data Base)走向BD(Big Data)。BD和DB存在著很大的不同。與DB相比,BD的體積大得多,處于TB級,乃至PB級,甚至更高。但DB中的數(shù)據(jù)是高質量的,干凈的,數(shù)據(jù)價值密度高;而BD中的數(shù)據(jù)卻與之相反,單位密度的數(shù)據(jù)價值很低,是非結構化的。如何在BD數(shù)據(jù)的高存儲及計算成本與低密度價值之間尋找到最佳平衡將是大數(shù)據(jù)研究的一項長期課題。
2、大數(shù)據(jù)研究的側重點在于相關性而不是因果性。傳統(tǒng)的科學研究講究因果關系,強調的是精確性;但在大數(shù)據(jù)里面,相關性成為了研究的焦點。顯然,在相關性這個范疇內,對事物的預測就不能做到絕對精確,而只能在一定的置信區(qū)間內對未來做出一定的判斷。事物間存在較強相關性的例子很多,比如,Google通過分析用戶對感冒相關癥狀的搜索頻度能預測流感;阿里巴巴通過對電子商務交易量的下降能預測金融危機。上述所列舉的相關性例子易于被理解,其實,令人費解的例子也不少。例如,有專家發(fā)現(xiàn):人的增重與房屋租賃存在著很強的相關性,這就不容易被理解了,但二者之間卻存在著很強的相關性,可以為我們所用,盡管二者之間并沒有直接的因果關系?偟膩碇v,大數(shù)據(jù)分析側重于挖掘不同事物間的相關性并以此作為作出各類判斷的依據(jù)。
3、大數(shù)據(jù)使運算更依賴于數(shù)據(jù)而不是算法。運算可以抽象成簡單的表達式:Y=F(X),F(xiàn)()代表的是算法;而X代表的是數(shù)據(jù);Y代表我們希望得到的結果。在大數(shù)據(jù)時代,F(xiàn)()的重要性下降了,而X的重要性大幅增加,因為較多的數(shù)據(jù)對于結果的影響要好于較好的模型。
總之,隨著互聯(lián)網(wǎng)的飛速發(fā)展,大數(shù)據(jù)時代已經(jīng)來臨。大數(shù)據(jù)的特征也日益清晰,大數(shù)據(jù)的價值是顯而易見的。圍繞著大數(shù)據(jù)這座“數(shù)字寶藏”,越來越多的專家學者以及工程師正在不斷地加入“數(shù)據(jù)礦工”的行列,正在用他們的智慧去挖掘“數(shù)字寶藏”中蘊含的彌可珍貴的“數(shù)字金礦”;ヂ(lián)網(wǎng)的飛速發(fā)展產(chǎn)生了巨量的“數(shù)字寶藏”,而“數(shù)字寶藏”的開發(fā)利用必將反過來促進互聯(lián)網(wǎng)的進一步發(fā)展,催生新的互聯(lián)網(wǎng)殺手锏應用,最終造福于廣大網(wǎng)民。