一区二区三区四区亚洲|一本大道在线一本久道|九九re热国产精品视频|国产亚洲精品岁国产微拍|欧美成人看片一区二区福利|无遮挡又爽又黄的视频网战|欧美极品欧美激情在线观看|亚洲高清二区特黄色大片在线播放

歡迎光臨九江市物流綜合信息平臺
當前位置: 主頁 > 政策資訊 > 國內資訊 >

如何發(fā)現物流大數據中的“異常值”

時間:2017-07-21 14:06 來源:物流沙龍 點擊:
江西省省級物流公共信息平臺提示:您的Flash Player版本過低,請進行網頁播放器升級!


“若敕政則躬,杜漸防萌,則兇妖消滅,害除福湊矣。” ——《后漢書·丁鴻傳》


    東漢重臣丁鴻在給和帝的上書中勸勉皇帝須在事情的萌芽階段就開始預防,這樣才可以消除隱患,使得國家長治久安。也正是因為丁鴻的直言勸諫,和帝才果斷出手平亂,避免事情進一步向消極的方向發(fā)展。

    治國如此,治理企業(yè)也同樣如此,在標準化程度亟待提升的物流行業(yè),萬億級的市場最終由兩千余萬的卡車司機和一千余萬的卡車如螞蟻搬家一般完成,每一條運輸的數據記錄就好比全身經脈中那細小到肉眼看不見的毛細血管,細微至極但卻重要至極。

    在互聯網+物聯網浪潮的推動下,物流行業(yè)的數據積累呈指數級的爆發(fā),面對如此海量的數據,規(guī)模以上企業(yè)往往不知所措,首當其沖的問題就是數據是否真實可信?換句話說就是數據是否有異常值?以及如何在浩如煙海的數據中快速準確的發(fā)現異常值并及時處理?

    現在假設有一份某公司項下某項目某三個月的運單記錄如下,數據分析的目的是在這三個月中,所有運費金額是否有異常值?為了方便理解可以將數據字段做深度裁剪,只保留“運單單號”“貨物名稱”“起始點”“目的地”“運輸距離”“貨物數量”“運費金額”“運輸時間”等字段,字段截圖如下圖:


    如果數據只有23條記錄,那么異常值的獲取完全可以依靠經驗識別,但是這份數據其實一共有3505行記錄,這就超出了經驗識別的框架,必須通過數據分析的方式來辨別其真假。

而從數據分析的角度來看這份數據,至少有三種方式快速高效的識別異常值


? 箱線圖

箱線圖是對數據進行描述性分析的時候最經常使用的算法,最適宜提供有關數據的位置與分散的參考,尤其在不同的總體數據時更可表現其差異。對于原始數據集中的運費金額做箱線圖的最終結果如下:


    以出發(fā)點為類別軸分別做A出發(fā)點和B出發(fā)點的箱線圖,圖中的灰色箱子可以簡單的看做是正常值的集合(如果將所有的數值從大到小依次排序,那么灰色箱子中的數據就是中間50%的數據),從灰色箱子到上下界線的垂直線可以簡單的看做是另外幾乎50%的數據,為什么說是幾乎?因為還有異常值。

    超過上下界線的數值都可能被認為是異常值,在本例中,上下界線的參數設置為1.5倍的正常數據集(灰色箱子)的跨度??梢钥闯?,根據箱線圖的算法,以B地點為出發(fā)點為例,原始數據集中第785,1405,2543,1028,2018,1299,1009,1504,2524,612,737,2126條運輸記錄在運費金額上可能存在異常。

    箱線圖在識別數據異常上的最大優(yōu)勢不僅僅在于速度快,更在于對于異常值的定義是根據原始數據集的整體趨勢變化的,彈性且靈活,而不是一個簡單的大于多少或者小于多少的硬性指標,這對于運價隨天氣,政策,供求,品類,急緩等多方因素隨時變化的物流行業(yè)來說尤為重要。


? 回歸

回歸是數據分析的靈魂,當然回歸也可以檢測到數據的異常值。

    用回歸的算法檢測異常值與箱線圖相比最大的不同在于,箱線圖是根據單變量的數據變化發(fā)現異常值,但是箱線圖的的不足之處也恰恰在于切斷了關聯性,在物流行業(yè)中,數據從來不會是單獨存在,每一條運輸記錄都是大量的字段數據共同組成,刻意的切斷數據的關聯性分析得到的結果往往也是不全面的。這時,回歸算法就更為符合關聯性的要求。

    用回歸的算法識別異常值的方式有很多,在本例中只使用較為易于理解的一種,得到的最終結果如下:

    在以“運費金額”為因變量,“貨物數量”和“運輸時間”為自變量的線性回歸中,由模型推導出的預測值與實際值之間的差值(殘差)應該符合正態(tài)分布,利用這一點對標準化的殘差和標準化的的預測值做散點圖。

    從最終結果圖來看,原始數據集的殘差與預測值之間大體上是符合正態(tài)分布的,這時通過3倍標準差的輔助線(圖中虛線)就可以發(fā)現輔助線外的異常值(5%可能性存在的值),從圖中可以看到可能的異常值是第3234,3217,3293,3349,3304,3285,3226,3219條運輸記錄。

    回歸算法將運費金額不再視為一個單獨的變量看待,而是將其視為主變量(為了便于理解的說法),將貨物數量和運輸時間視為輔變量,通過主變量與輔變量之間的邏輯關系來論證數據是否可能異常。


? 聚類

    在回歸算法中,作為因變量的“運費金額”是要研究的對象,是一個很重要很“昂貴”的指標,作為自變量的“貨物數量”和“運輸時間”是為了研究運費金額而使用的對象,是相對不重要和“較為廉價”的指標。所以回歸算法其實就是用一系列“較為廉價”的指標去驗證一個“昂貴”的指標,這其中天然存在著“不平等性”。

    聚類算法將所有的字段視為同等重要,從而避免了這種“不平等性”,在數據量較小且不講求數據精度的初步篩選中通過使用K均值聚類算法,在本例中,得到的最終結果如下圖:

聚類的基本原理可以簡單的理解成物以類聚,在一條條的運輸記錄中,每條記錄中都包含有大量的平等的數據字段,通過聚類的算法,具有相似特性字段值的記錄就會被聚成一類。在這樣的邏輯上,可能包含異常值的“與眾不同”的運輸記錄就會凸顯出來,成為單獨的某一類或者某幾類。

    從本例的最終結果圖可以看到,第一類和第二類都有著極為豐富的數據集合,具有相似字段特性的運輸記錄集合在一起成為一類,而第三類卻特別顯眼,通過后續(xù)的數據處理可以發(fā)現第三類只包含兩行數據,分別是第3234行數據和第3217行數據,那么這兩行就是可能的異常數據。

    大數據輔助各個行業(yè)發(fā)展的今天,我們更多的都在說如何取得數據,以及如何進行數據分析。但是,有人的地方就是江湖,江湖險惡,總會有真假。所以我們在分析數據之前,務必要搞清楚,哪些是有價值的數據,哪些是“異常值”。

    但是,從另外一個角度來說,風險往往與機遇往往是共存的,在發(fā)現異常值的背后也不全然是風險,也同樣有可能蘊藏著產品與管理的創(chuàng)新與開拓,前提是,必須先發(fā)現它。