天氣驅(qū)動行業(yè)銷售大數(shù)據(jù)
摘要:自建國以來我國的氣象系統(tǒng)已經(jīng)十分完備,2015年中國氣象局發(fā)布27號令后使得氣象數(shù)據(jù)邁向開放數(shù)據(jù)(Open Data)新階段,行業(yè)與公眾可以使用海量氣象數(shù)據(jù)助力企業(yè),目前行業(yè)數(shù)據(jù)和海量氣象數(shù)據(jù)還沒有得到完全應(yīng)用。本文主要研究氣象數(shù)據(jù)對銷售的影響,進而利用氣象數(shù)據(jù)特性完成天氣驅(qū)動行業(yè)銷售的預(yù)測。我們以兩個零售行業(yè)的銷售數(shù)據(jù)為例,結(jié)合氣象局提供的天氣數(shù)據(jù)進行分析。同時,我們在分析中加入了經(jīng)濟因素,如上證指數(shù)和CPI數(shù)據(jù)來提供外部環(huán)境支持。與傳統(tǒng)的預(yù)測不同,在氣象數(shù)據(jù)中,我們不僅知道目前時間點的數(shù)據(jù),也有目前公眾唾手可得的未來七天精確天氣預(yù)報。我們采用目前流行的機器學(xué)習(xí)算法隨機森林來建模,得到了很好的泛化結(jié)果。我們的預(yù)測模型可以解決銷售行業(yè)傳統(tǒng)通過從業(yè)人員的主觀判斷進行銷售預(yù)測的局限,利用大數(shù)據(jù)分析實現(xiàn)更加精確可靠的指導(dǎo)。
一、業(yè)務(wù)介紹
天氣一直是指導(dǎo)人們生活的重要因素,德國知名的經(jīng)濟議題觀察家弗里德黑姆˙施瓦茨(Friedhelm Schwarz)發(fā)表的著作《氣候經(jīng)濟學(xué)》[1]提到地球上有80%的經(jīng)濟活動都是由于天氣因素影響甚至決定的,如:農(nóng)作物受寒害影響收成及市場價格、涼夏造成冰品銷售下降、暖冬縮短羽絨服銷售時間、出行航班受天氣影響延誤以及所有的戶外活動等。目前我國(除西部部分人口稀少的區(qū)域)的氣象系統(tǒng)已經(jīng)十分完善,氣象觀測網(wǎng)絡(luò)從在軌衛(wèi)星、雷達、高空氣球、地面觀測站點(降水、風(fēng)速、風(fēng)向、相對濕度、大氣壓力、氣溫)到地下的農(nóng)業(yè)觀測站(土壤墑情:土表下的溫度、濕度等),民眾可以通過過互聯(lián)網(wǎng)或智能手機直接了解天氣預(yù)報。目前積累起來的氣象數(shù)據(jù)量也十分龐大(每年以PB等級的速度增長),但是目前這些數(shù)據(jù)還沒有得到充分的應(yīng)用。下面我們將闡述利用行業(yè)數(shù)據(jù)和氣象數(shù)據(jù)進行銷售預(yù)測、使用天氣規(guī)劃營銷活動的全過程。
在銷售領(lǐng)域,氣象一直是一個十分重要的影響因素。人們根據(jù)天氣來情況來決定購買的衣服,所吃的食物,甚至是飲用的飲品,特別是對于酒精性飲料和羽絨服非常直觀受天氣影響的零售商品,天氣對其銷量起了重要作用。因此相關(guān)從業(yè)人員會十分關(guān)注天氣預(yù)報,并根據(jù)天氣來進行產(chǎn)品設(shè)計、營銷方案、采購與銷售等行為的決策。但是這種做法只是根據(jù)從業(yè)人員的經(jīng)驗進行判斷,結(jié)果十分主觀,容易導(dǎo)致偏差而做出錯誤的產(chǎn)銷計劃(SOP: Sales & Operation Planning),因此如何利用行業(yè)數(shù)據(jù)、氣象數(shù)據(jù)與其他公眾數(shù)據(jù)進行精確的數(shù)字化銷售預(yù)測是行業(yè)研究的熱點,而業(yè)務(wù)受天氣等外部環(huán)境因素驅(qū)動的關(guān)聯(lián)性與因果性研究落成精準(zhǔn)營銷也是本文強調(diào)的重點。
氣象的觀測體系是由龐大的物聯(lián)網(wǎng)(IOT: Internet of Things)構(gòu)架而成,每分鐘都在監(jiān)測相關(guān)天氣要素(風(fēng)速、風(fēng)向、溫度、相對濕度、大氣壓力、降水等),協(xié)同全世界各國的觀測網(wǎng)絡(luò),同時結(jié)合地球科學(xué)、大氣物理、流體力學(xué)等專業(yè)知識,通過大型計算機技術(shù)完成數(shù)值天氣預(yù)報(Numerical Weather Prediction)。目前的預(yù)報模式提供給公眾的時間長度為15天,48小時內(nèi)為逐小時預(yù)報,后續(xù)為逐日預(yù)報。由于觀測體系的完備以及計算技術(shù)能力的大幅提升,預(yù)報的精細度也已經(jīng)達到平方公里涵蓋以及分鐘級別,天氣預(yù)報在一定的時間周期內(nèi)已經(jīng)相當(dāng)成熟且具有高準(zhǔn)確度。我們透過行業(yè)數(shù)據(jù)與氣象歷史數(shù)據(jù)進行相關(guān)性分析確立結(jié)果后,根據(jù)業(yè)務(wù)影響關(guān)系、數(shù)據(jù)同比影響等特性,低風(fēng)險地進行因果性驗證。天氣數(shù)據(jù)有可靠的預(yù)報準(zhǔn)確度,是氣象數(shù)據(jù)可以作為天氣驅(qū)動行業(yè)大數(shù)據(jù)分析的最大特點。
本文主要研究兩項容易受天氣因素驅(qū)動(影響)的銷售預(yù)測問題,業(yè)務(wù)形態(tài)特別選取B2B(Business to Business)與B2C(Business to Customer)兩種目前多數(shù)的業(yè)務(wù)類型:酒精性飲料的渠道銷售預(yù)測以及電商平臺的羽絨服銷量預(yù)測。酒精性飲料的銷量由很多因素影響,Lee et al.[2]和Rojas et al.[3]研究了廣告對酒精性飲料銷量的影響,Voleti et al.[4]和Empen et al.[5]研究了品牌資產(chǎn)對于酒精性飲料銷量的影響。而在酒精性飲料行業(yè)中,還有一個公認對酒精性飲料銷量影響極大的指標(biāo):天氣。2015年我國酒精性飲料行業(yè)整體銷量下滑,很多人都歸因于2015年整體氣溫偏低的。一般酒精性飲料銷量呈現(xiàn)季節(jié)性變化,天氣寒冷的時候消費者對于酒精性飲料的需求會下降,銷量會比較低;而在天氣炎熱的時候,酒精性飲料的銷量會明顯增高;本項目不考慮終端零售數(shù)據(jù),僅研究酒精性飲料的渠道銷售情況是否受天氣所驅(qū)動,也就是各階層的渠道商實際銷售情況是否受天氣影響。
對于羽絨服來說,天氣的影響更加明顯。從生活經(jīng)驗來看,人們主要是在冬天購買羽絨服,而夏天基本上不會有商家出售羽絨服。中國氣象局公共氣象服務(wù)中心和凡客誠品等公司合作利用氣象數(shù)據(jù)進行羽絨服銷量的研究,僅利用平均溫度的三次多項式方程就得到了比較準(zhǔn)確的結(jié)果(劉一伶等[6]),這表明天氣的確對羽絨服的銷量有十分重要的影響。
在不同的地區(qū),天氣對銷量的影響也有明顯區(qū)別。在中國北方地區(qū),四季很明顯,換季時時間間隔比較分明,因此人們能快速地根據(jù)氣溫變化進行反應(yīng)。中國南方地區(qū)的換季卻十分反復(fù),經(jīng)常會出現(xiàn)冬天穿夏裝的情況,整體濕度也偏高,因此人們根據(jù)季節(jié)變化和氣溫變化進行的反應(yīng)會和北方有很大差別。本文在研究天氣對銷量的影響時,會分城市進行分析,發(fā)現(xiàn)不同城市中天氣對銷量的影響規(guī)律。
二、數(shù)據(jù)描述
(一)酒精性飲料銷售數(shù)據(jù)描述
我們的酒精性飲料銷售數(shù)據(jù)來源于某知名酒精性飲料公司渠道銷售數(shù)據(jù),采集來源為ERP(Enterprise Resource Planning)系統(tǒng)的一級渠道銷售數(shù)據(jù):銷售訂單(Sales Order)與對應(yīng)的提貨單(Delivery Note)以及經(jīng)銷商Go-To-Market系統(tǒng)的銷售二級渠道數(shù)據(jù)。數(shù)據(jù)為2013年至2015年五個經(jīng)銷商位在城市G、城市S、城市H、城市Z、城市W的銷售數(shù)據(jù);第一部分的一級渠道銷售數(shù)據(jù)是從工廠到經(jīng)銷商的數(shù)據(jù),第二部分的二級渠道銷售數(shù)據(jù)是從經(jīng)銷商到售點的數(shù)據(jù)。工廠指的是酒精性飲料的生產(chǎn)工廠,該酒精性飲料公司在不同的城市均有經(jīng)銷商(渠道商),分為高檔、中高檔、中檔、低擋四個等級,不同的經(jīng)銷商會根據(jù)售點的需求要求工廠供貨。二級渠道售點一般是酒吧、KTV、餐飲、零售等。
從工廠到經(jīng)銷商的數(shù)據(jù)也就是一級渠道銷售數(shù)據(jù),數(shù)據(jù)中的字段見表1�?蛻羲褂玫腅RP系統(tǒng)提供多項業(yè)務(wù)日期進行記錄區(qū)分出不同業(yè)務(wù)意義:訂單日期(Order Date)、需求日期(Requirement Date)、訂單釋放日期(Order Released Date)、發(fā)貨日期(Shipping Date)、交貨日期(Post Good Issue Date),交易數(shù)據(jù)皆以日為單位,明確各個交易日期數(shù)據(jù)在各地區(qū)實際進行業(yè)務(wù)錄入的商業(yè)意義是對業(yè)務(wù)數(shù)據(jù)描述理解的第一步;(1)訂單日期,業(yè)務(wù)建立訂單時客戶ERP系統(tǒng)的日期;(2)需求日期,一級渠道商根據(jù)庫存與銷售預(yù)測的需要到貨日期,但目前此字段沒有嚴格要求鍵入實際需求日期;(3)訂單釋放日期:在客戶流程中更多的是指客戶賬務(wù)信用額度滿足;(4)出貨日期:指從工廠到達一級渠道經(jīng)銷商的時間,在大多數(shù)的運輸時間都在一天以內(nèi);(5)交貨日期:在業(yè)務(wù)流程中是用以界定『貨權(quán)』狀態(tài)的時間點,在本項目數(shù)據(jù)多與出貨日期字段相同。根據(jù)業(yè)務(wù)定義應(yīng)該是客戶需求日期(Requirement Date)將會是天氣驅(qū)動業(yè)務(wù)關(guān)系中最強的字段,但所取得的數(shù)據(jù)理解發(fā)貨日期(Shipping Date)更接近客戶的實際需要的實際時間;由于客戶的業(yè)務(wù)流程錄入時沒有強制所有訂單嚴格要求在ERP系統(tǒng)建立訂單的相關(guān)日期字段,在清洗數(shù)據(jù)時日期的選擇上與業(yè)務(wù)單位從實際業(yè)務(wù)流程與數(shù)據(jù)結(jié)果來選取最能真實呈現(xiàn)天氣驅(qū)動業(yè)務(wù)的日期字段。經(jīng)過分析,在實際發(fā)貨日期下銷量和天氣的相關(guān)度也比較高,所以下面均采用實際發(fā)貨日期作為時間基準(zhǔn)。對于每個產(chǎn)品,其容量會有很大不同,有些是罐裝的,有些是桶裝的,在飲品行業(yè)中采用物品體積來衡量銷量的多少,銷售數(shù)量(瓶、罐)則為輔助說明銷售趨勢。
表1 一級渠道銷售數(shù)據(jù)的字段描述
數(shù)據(jù) | 一級渠道銷售數(shù)據(jù)(僅列出最終使用字段) | ||
Id | 字段名Field name | 字段說明 | 備注說明 |
1 | 城市 | 銷售城市;一級渠道所在城市 | 城市G、城市S、城市H、城市Z、城市W |
2 | 產(chǎn)品 | 酒精性飲料產(chǎn)品描述 | 包括了品牌、子品牌、容量、包裝等內(nèi)容 |
3 |
訂單日期(Order Date)需求日期(Requirement Date)
釋放日期(Released Date) 發(fā)貨日期(Shipping Date) 交貨日期(PGI Date) |
下單日期客戶需要日期
訂單釋放日期 發(fā)貨離廠日期 交貨日期 |
2013年至2015年共計三年 |
4 | 交貨單數(shù)量發(fā)貨數(shù)量 | 實際發(fā)貨數(shù)量 | 單位:件 |
5 | 體積 | 酒精性飲料的容量 | 飲品行業(yè)計量單位單位:百升 |
從一級渠道(經(jīng)銷商)到二級渠道數(shù)據(jù)的字段見表2。和一級渠道數(shù)據(jù)相同的是,該數(shù)據(jù)雖然不記錄在ERP系統(tǒng),而記錄在渠道商的GO-TO-MARKET系統(tǒng)中,也定義有不同業(yè)務(wù)意義的日期系統(tǒng)審核日期(Audit Date)與發(fā)貨日期(Shipping Date),兩個日期在數(shù)據(jù)上幾乎一致,而訂單日期(Order Date)一般是在月底記錄(渠道銷售返利模式特性),所以該日期并不能準(zhǔn)確反映天氣驅(qū)動的實際日期,我們同樣采用發(fā)貨日期作為時間基準(zhǔn)。對銷量自然箱、銷量百升、銷量標(biāo)準(zhǔn)箱等行業(yè)特殊性記錄,在與合作業(yè)務(wù)方交流后,與一級渠道數(shù)據(jù)相同,選用銷量百升。
表2 酒精性飲料二級渠道數(shù)據(jù)的字段描述
數(shù)據(jù) | 二級渠道銷售數(shù)據(jù)(僅列出最終使用字段) | ||
Id | 字段名Field name | 字段說明 | 備注說明 |
1 |
auditdateorderdate
shipdate |
系統(tǒng)審核日期訂單日期
發(fā)貨日期 |
2013年1月1日到2015年11月30日 |
2 | 城市 | 二級渠道所在城市 | 城市G、城市S、城市H、城市Z、城市W |
3 | 渠道類型 | 二級渠道類型 | 夜店、KTV、酒吧等;高端餐飲;普通餐飲;零售商; |
4 | 品牌家族 | 標(biāo)注品牌所屬的家族名稱 | 一個系列的大品牌 |
5 | 子品牌 | 品牌細分 | 品牌的細分 |
6 | 出貨體積 | 酒精性飲料的容量(單位:百升) | 飲品行業(yè)計量單位 |
酒精性飲料屬于快速消費品(FMCG:Fast Moving Consumer Goods),價格的變更、促銷方案、返利活動、新品上市等都會影響銷售的變化,導(dǎo)致無法真實分析挖掘出天氣驅(qū)動行業(yè)的真實情況。業(yè)務(wù)方提供了其他方面的數(shù)據(jù),包括含稅價格和促銷信息。具體見表3。
表3 酒精性飲料其他數(shù)據(jù)的字段描述
數(shù)據(jù) | 其他影響銷售數(shù)據(jù) | ||
Id | 字段名Field name | 字段說明 | 備注說明 |
1. | 日期 | 某個價格的期限 | 每一個產(chǎn)品的價格 |
2. | 價格 | 每百升物料的月銷售含稅價 | |
3. |
MonthStart Date
End Date |
價格或促銷活動月份與時間段 | |
4. | 促銷分類 | 促銷類別 | 22類 |
我們分別對一級渠道銷售數(shù)據(jù)以及二級渠道銷售數(shù)據(jù)進行整合,在某一個日期下,有不同城市不同品牌的銷售數(shù)據(jù),如果某個城市的某個品牌在某天無銷售數(shù)據(jù),我們認為其銷售額為0。同時由于按周的銷量比較穩(wěn)定,規(guī)律比較明顯,我們以周為單位進行分析,銷量為一周的銷量加總,價格為一周的平均。
(二)羽絨服銷售數(shù)據(jù)描述
羽絨服銷售數(shù)據(jù)來自電商平臺交易記錄(銷售數(shù)據(jù)不區(qū)分公司與相關(guān)品牌),時間長度從2011年到2013年,包括了全國275個城市。我們提取出和酒精性飲料數(shù)據(jù)中匹配的五個城市來分析,同時加入一個北方城市:城市Q。數(shù)據(jù)中除了日期和城市兩個字段之外,還有銷售總金額和銷售總件數(shù)。表4總結(jié)了六個城市的數(shù)據(jù)量(Observation)。
表4 羽絨服銷量數(shù)據(jù)五個城市的數(shù)據(jù)量
城市 | Observation |
城市G | 1096 |
城市S | 1100 |
城市H | 1096 |
城市Z | 1099 |
城市W | 1100 |
城市Q | 1079 |
從2011年1月1日到2013年12月31日共1096天,城市S、城市Z、城市W數(shù)據(jù)中多出來的數(shù)據(jù)量是由于某一天的銷售量有兩條記錄導(dǎo)致的,我們把這些數(shù)據(jù)按天合并。而城市Q的某些天沒有數(shù)據(jù),我們認為其銷量為0,氣象數(shù)據(jù)則取相應(yīng)時間段與觀測城市的數(shù)據(jù)。與酒精性飲料數(shù)據(jù)一樣按照日粒度進行整理,同時將一周銷量加總作為周銷量數(shù)據(jù),按兩種時間維度進行分析。
(三)天氣數(shù)據(jù)描述
快速消費品的酒精性飲料以及功能服飾類的羽絨服,業(yè)務(wù)數(shù)據(jù)的最小時間顆粒度為天,而天氣觀測數(shù)據(jù)最小時間顆粒度為分鐘級。從公眾氣象信息的獲取、消費購物的習(xí)慣以及氣象數(shù)據(jù)日為單位的觀測數(shù)據(jù)特性出發(fā),主要以日作為天氣驅(qū)動消費的最小時間基礎(chǔ)單位,使用的相關(guān)氣象數(shù)據(jù)如表5。需要注意的是,氣象數(shù)據(jù)可能會因為設(shè)備故障或是其他因素影響造成缺測情況,我們所選的都為國家級觀測站,避免缺測導(dǎo)致的數(shù)據(jù)質(zhì)量問題,而在采取以周為時間基礎(chǔ)單位進行分析時,以周天氣數(shù)據(jù)記錄的分位數(shù)為基礎(chǔ)。
表5 日觀測氣象數(shù)據(jù)要素
數(shù)據(jù) | 氣象數(shù)據(jù)要素(日) | ||
Id | 字段名Field name | 字段說明 | 備注說明 |
1 | SiteId | 臺站編號 | 根據(jù)觀測臺站所在位置可以明確所在地(對應(yīng)到行政區(qū),如北京市東城區(qū)) |
2 | Day | 觀測日期 | |
3 | PressureAverage | 日均大氣壓力 | (單位:MPA) |
4 | PressureMax | 日最大大氣壓力 | (單位:MPA) |
5 | PressureMin | 日最小大氣壓力 | (單位:MPA) |
6 | TemperatureAverage | 日平均氣溫 | (單位:℃) |
7 | TemperatureMax | 日最高氣溫 | (單位:℃) |
8 | TemperatureMin | 日最低氣溫 | (單位:℃) |
9 | RelativeHumidityAverage | 日平均相對濕度 | (單位:℃) |
10 | RelativeHumidityMin | 日最小相對濕度 | (單位:%) |
11 | Precipitation20_8 | 前一日20時至當(dāng)日8時的各時段降水量的累加值 | (單位:mm) |
12 | Precipitation8_20 | 由當(dāng)日08時至當(dāng)日20時的各時段降水量的累加值 | (單位:mm) |
13 | Precipitation20_20 | 由前一日20時至當(dāng)日20時的各時段降水量的累加值 | (單位:mm) |
14 | EvaporationSmall | 日最小蒸發(fā)量 | (單位:mm) |
15 | EvaporationLarge | 日最大蒸發(fā)量 | (單位:mm) |
16 | WindSpeedAverage | 平均風(fēng)速 | (單位: m/s) |
17 | WindSpeedMax | 最大風(fēng)速 | (單位: m/s) |
18 | WindSpeedMaxDirection | 最大風(fēng)速的風(fēng)向 | (度) |
19 | WindSpeedExtreme | 極大風(fēng)速 | (單位: m/s) |
20 | WindSpeedExtremeDirection | 極大風(fēng)速的風(fēng)向 | (度:角度) |
21 | SunshineHour | 日照時長 | (單位:小時) |
22 | SurfaceTemperatureAverage | 日地表均溫 | (單位:℃) |
23 | SurfaceTemperatureMax | 日地表最高溫 | (單位:℃) |
24 | SurfaceTemperatureMin | 日地表最低溫 | (單位:℃) |
氣象的數(shù)據(jù)分析,除了以日值作為分析要點外,還有其他幾個特性也是在進行天氣驅(qū)動行業(yè)分析時需要考量的,如:連續(xù)幾日高于35℃高溫、連續(xù)幾日降雨、連續(xù)幾日低于10℃、日夜溫差超過20℃,等天氣要素模式(pattern)類型的組合都是天氣驅(qū)動行業(yè)的要素,所以除了表5的天氣要素外還要設(shè)計多種天氣要素模式(pattern)。
天氣上的重大事件,如臺風(fēng)也會對酒精性飲料銷量產(chǎn)生影響,所以我們也將受影響的時間、臺風(fēng)等級加入在氣象數(shù)據(jù)中(臺風(fēng)主要反映在天氣要素的風(fēng)速、降雨等)。
公眾目前獲取最長的天氣預(yù)報為15天,羽絨服以及酒精性飲料的數(shù)據(jù)都自2011年與2013年開始,當(dāng)時公眾所獲取的天氣預(yù)報數(shù)據(jù)多為7天,所以在數(shù)據(jù)清洗擬合也會進行多種時間窗的平移,以確定業(yè)務(wù)數(shù)據(jù)是受當(dāng)日實際感受的驅(qū)動,還是天氣預(yù)報的提前反應(yīng)。
(四)補充數(shù)據(jù)描述
除了合作方提供的銷售數(shù)據(jù)和氣象局的數(shù)據(jù),還要考慮其他能夠量化并獲取的可能影響銷量的數(shù)據(jù)。消費者的需求也可能受經(jīng)濟因素的影響,因此我們抓取了數(shù)據(jù)時間段內(nèi)的上證指數(shù)和居民消費價格指數(shù)(Consumer Price Index,CPI)。由于周末收盤,在周末沒有上證指數(shù)數(shù)據(jù),周末的上證指數(shù)我們用周五的來填補。而我們能獲得的CPI數(shù)據(jù)是一個月統(tǒng)計一次,因此在某一個月內(nèi),我們統(tǒng)一用一個CPI數(shù)值。除此之外,對于酒精性飲料銷售來說,在有重大賽事時,如世界杯等,酒精性飲料銷量會顯著上升,因此我們查找了數(shù)據(jù)時間段內(nèi)可能會影響到酒精性飲料銷量的重大事件加入數(shù)據(jù)中。加入event變量,如果當(dāng)天有重大事件,event為1,否則為0。在法定假日時,售點和經(jīng)銷商一般會提前存貨,因此公司的銷量會增加,我們把這個因素也考慮進去,在數(shù)據(jù)中增加holiday變量,假如當(dāng)天是法定假日標(biāo)記為1,否則標(biāo)記為0。同樣,月末也會出現(xiàn)囤貨的現(xiàn)象,與法定假期一樣,我們將月末標(biāo)記為1,否則標(biāo)記為0。
三、數(shù)據(jù)建模
為了找到所有氣象要素中真正影響銷量的要素,我們利用皮爾森(Pearson)相關(guān)性進行檢驗,發(fā)現(xiàn)平均溫度是與酒精性飲料銷量以及羽絨服銷量關(guān)系最大的要素。因此在描述性分析部分,我們用平均氣溫來探索銷量與天氣之間的關(guān)系。
(一)酒精性飲料數(shù)據(jù)的建模
(1)描述性分析
圖1展示了一級渠道的銷量按月份的分布情況(縱軸實際銷售體積涉及商業(yè)秘密不予展示,僅用于說明趨勢),不同顏色代表不同年份,橫坐標(biāo)代表月份、縱坐標(biāo)代表百升的銷量。城市G和城市S是兩個銷量大城市;夏天的銷量有明顯的增高,而當(dāng)天氣轉(zhuǎn)冷的時候銷量會下降;在城市G,銷量在逐年上升,但是在城市S、城市Z、城市H、城市W這四個城市卻沒有這樣的趨勢;城市S、城市Z、城市H、城市W這四個城市七八月之后的銷量均出現(xiàn)了急速下降。圖2展示了二級渠道的銷量按月份的分布情況(縱軸實際銷售體積涉及商業(yè)秘密不予展示,僅用于說明趨勢),其趨勢與一級渠道一樣,也呈現(xiàn)出季節(jié)的周期性變化。
從銷量按月份的趨勢來看,銷量確實與天氣有一定的關(guān)系。我們在分析的時候分別以天(銷售日與當(dāng)日天氣數(shù)據(jù),以及銷售日數(shù)據(jù)分別平滑1天到7天;區(qū)分是受當(dāng)時天氣感受的影響,還是接收天氣預(yù)報后所做的反應(yīng))還有周(采用周天氣要素的分位數(shù)),最終是以周為單位進行預(yù)測的,因此下面我們按周對銷量和天氣進行描述。圖3和圖 4分別為二級渠道和一級渠道的銷量和天氣按周的趨勢,橫軸為周,左邊縱軸為銷量,右邊縱軸為平均氣溫。出現(xiàn)的負值銷量表示這一周有退貨的情況,而且退貨數(shù)量要比訂貨數(shù)量高,在銷量比較低的城市會出現(xiàn)這樣的現(xiàn)象。在城市G,銷量和天氣的趨勢比較明顯,而城市S會出現(xiàn)一些異常情況,城市H、城市W、城市Z的趨勢比較弱,特別是城市W,其銷量整體偏低,就算氣溫有明顯的上升,其銷量也沒有增長。
城市G | |
|
|
城市S | 城市Z |
城市H | 城市W |
圖1 一級渠道銷量按月趨勢
城市G | |
城市S | 城市Z |
城市H | 城市W |
圖2 二級渠道銷量按月趨勢
城市G | |
城市S | 城市Z |
城市H | 城市W |
圖3 一級渠道銷量與平均氣溫按周趨勢(橘色曲線為天氣平均溫度要素,藍色曲線為銷量)
城市G | |
城市S | 城市Z |
城市H | 城市W |
圖4 二級渠道銷量與平均氣溫按周趨勢(橘色曲線為天氣平均溫度要素,藍色曲線為銷量)
(2)模型設(shè)定
時間序列數(shù)據(jù)一般由長期趨勢、季節(jié)變動、循環(huán)變動、不規(guī)則變動四個部分組成。其中長期趨勢指的是隨著時間的變化;季節(jié)變動指隨著季節(jié)變化的周期性變動;循環(huán)變動指以若干年為單位的變化;不規(guī)則變動是隨機變化導(dǎo)致的波動。本文的數(shù)據(jù)時間間隔均為3年左右,所以不存在循環(huán)變動項。我們把數(shù)據(jù)分解為趨勢項、季節(jié)項和隨機波動項,以二級渠道銷售數(shù)據(jù)為例,分解情況如圖5(縱軸實際銷售體積涉及商業(yè)秘密不予展示,僅用于說明趨勢)。分解之后,雖然由于目前數(shù)據(jù)中還有很多沒有測量出來的因素,白噪聲部分不是完全由隨機波動影響的,但是季節(jié)項按季節(jié)的周期趨勢更加明顯了,而趨勢項隨著時間的變化呈現(xiàn)一定的波動。我們對分解出的季節(jié)項和趨勢項分別進行預(yù)測。
對于季節(jié)項部分,我們采用隨機森林進行預(yù)測。隨機森林由2001年被Breiman 提出[7],是一種基于樹的集成學(xué)習(xí)算法。Fernandez-Delgado et al. [8] 在121份數(shù)據(jù)集上進行了測試,證明隨機森林是在支持向量機、神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)算法中表現(xiàn)得最好的一個算法。對于我們的數(shù)據(jù)來說,很難看出天氣變化對銷量的影響呈現(xiàn)特定的函數(shù)關(guān)系,因此我們選用隨機森林這種不需要模型假設(shè)的非參數(shù)方法進行預(yù)測。
對于趨勢項部分,我們采用三次樣條進行預(yù)測。由于不同城市隨著時間變化的趨勢差別很大,利用三次樣條,我們可以擬合不同形狀的趨勢變化。
基于公眾可以便利的獲取氣象局提供的7天(最多15天)天氣預(yù)報前提,與以往的銷售預(yù)測不同,我們可以利用未來的天氣進行預(yù)測。同時,呈季節(jié)變化的銷量不僅受到了天氣和經(jīng)濟因素的影響,上一年同一個時間點的銷量和上一周的銷量也與當(dāng)前時間點的銷量有關(guān)系,因此我們把同比銷量和環(huán)比銷量也放入模型中。除此之外,為了考慮經(jīng)濟環(huán)境的影響,我們加入了上證指數(shù)和CPI。
(3)模型結(jié)果
我們從數(shù)據(jù)中剔除出最后三個月的數(shù)據(jù)來做測試集,剩下的部分均為學(xué)習(xí)集。通過真實值與預(yù)測值之間的誤差的絕對值占真實值的百分比來衡量預(yù)測誤差,預(yù)測誤差總結(jié)見表6:
表6 酒精性飲料銷量的預(yù)測誤差
城市 | 預(yù)測誤差 | |
一級渠道 | 二級渠道 | |
城市G | 0.1133 | 0.1203 |
城市S | 0.2808 | 0.2228 |
城市H | 0.2821 | 0.3046 |
城市Z | 0.4103 | 0.1454 |
城市W | 0.4457 | 0.1988 |
城市G的預(yù)測效果是最好的,城市S次之。在所有天氣要素中(風(fēng)、溫度、相對濕度、大氣壓力、降雨),溫度要素與銷售量相關(guān)性最高,但是在圖3和圖4中,僅城市G可以看到銷量和天氣的氣溫要素走勢比較一致,而其他城市會出現(xiàn)氣溫上升,銷量反而下滑的情況,而且城市G的銷量波動趨勢也比較平穩(wěn)。
城市G |
城市S |
城市Z |
城市H |
城市W |
圖5 二級渠道銷量分解情況
(二)羽絨服數(shù)據(jù)建模
(1)描述性分析
圖6和圖7分別為羽絨服銷量與天氣之間的趨勢變化圖。雖然不同城市之間趨勢有差別,但是基本上都呈現(xiàn)當(dāng)氣溫開始下降的時候,銷量開始上升的趨勢。同時,不管是按銷量金額還是銷量件數(shù)都呈現(xiàn)逐年上升的情況。但是對于城市S來說,雖然每年的銷量金額都在上升,但是銷量件數(shù)卻僅在11年冬季出現(xiàn)了一個高峰后就急劇降低,需要進一步結(jié)合其他數(shù)據(jù)進行探討或是測試。
表7展示了銷量與平均氣溫之間的皮爾森(Pearson)相關(guān)度。除了城市S的銷量件數(shù)出現(xiàn)了異常之外,平均氣溫與銷量之間呈現(xiàn)負相關(guān),這表明隨著氣溫下降,羽絨服的銷量會上升,同時,相關(guān)度均在0.3左右,說明氣溫與銷量之間有比較強的關(guān)系。
表7 銷量與平均氣溫之間的皮爾森(PEARSON)相關(guān)系數(shù)
城市 | 銷量(成交價格:元) | 銷量(件) |
城市G | -0.3980 | -0.3332 |
城市S | -0.3188 | -0.0008 |
城市H | -0.3267 | -0.2888 |
城市Z | -0.3043 | -0.2828 |
城市W | -0.3319 | -0.2999 |
城市Q | -0.2283 | -0.2185 |
城市G |
城市S |
城市H |
城市Z |
城市W |
城市Q |
圖6 銷量(元)與平均氣溫的變化趨勢(紅色曲線為天氣,藍色曲線為銷量)
城市G |
城市S |
城市H |
城市Z |
城市W |
城市Q |
圖7 銷量(件)與平均氣溫的變化趨勢(紅色曲線為天氣,綠色曲線為銷量)
(2)模型設(shè)定
和酒精性飲料數(shù)據(jù)一樣,我們同樣將數(shù)據(jù)分解為趨勢項、季節(jié)項和隨機波動項。對于趨勢項我們依舊采用三次樣條去擬合,而對于季節(jié)項,由于我們僅用皮爾森(PEARSON)相關(guān)系數(shù)就已經(jīng)可以測量到平均氣溫與銷量之間很強的相關(guān)度,因此我們用線性回歸來進行預(yù)測。同樣,我們在模型中加入了環(huán)比銷量和同比銷量。而從圖6和7 中,可以看出,一般在氣溫達到峰值后的兩個星期,銷量達到峰值,因此我們在模型中加入比當(dāng)前時間點提前兩個星期的天氣因素。
(3)模型結(jié)果
和酒精性飲料數(shù)據(jù)一樣,我們剔除出最后三個月的數(shù)據(jù)來做測試集,剩下的部分均為學(xué)習(xí)集。通過真實值與預(yù)測值之間的誤差的絕對值占真實值的百分比來衡量預(yù)測誤差。表8展示了羽絨服數(shù)據(jù)的預(yù)測誤差,很明顯,除了城市S的銷量件數(shù)之外,其他部分的預(yù)測效果都很好,說明天氣對羽絨服銷量的影響的確十分大。
表8 羽絨服數(shù)據(jù)銷量預(yù)測結(jié)果
城市 | 預(yù)測誤差 | |
銷量(元) | 銷量(件) | |
城市G | 0.0578 | 0.1000 |
城市S | 0.0452 | 0.1537 |
城市H | 0.0541 | 0.0885 |
城市Z | 0.0527 | 0.0855 |
城市W | 0.0433 | 0.0673 |
城市Q | 0.0378 | 0.0664 |
四、業(yè)務(wù)實施
數(shù)據(jù)驅(qū)動(Data Driven)的落地實施過程中,我們與企業(yè)的首要目標(biāo)是明確我們要解決的商業(yè)問題(Business Question)并進一步了解透過數(shù)據(jù)進行分析挖掘解決問題的可能。
我們與企業(yè)合作在設(shè)定商業(yè)問題過程中,發(fā)現(xiàn)企業(yè)對于開始數(shù)據(jù)分析業(yè)務(wù)的商業(yè)問題更多集中在可快速簡單量化成績的銷售業(yè)務(wù)(商品或服務(wù)的銷售成果)與營銷業(yè)務(wù)(促銷活動、廣告投放等),實施全程采取了天氣驅(qū)動業(yè)務(wù)分析框架(Weather Driven Analysis Framework)如圖8。
圖8 天氣驅(qū)動業(yè)務(wù)分析框架
本文探討的酒精性飲料以及羽絨服的商業(yè)問題:銷售預(yù)測以及支持精準(zhǔn)營銷。天氣驅(qū)動項目交付的是(1)可以實時運行可視化銷售預(yù)測模型與(2)持續(xù)的精細化天氣預(yù)測數(shù)據(jù)支持,示意畫面如圖9(因商業(yè)秘密,僅提供系統(tǒng)示意畫面);我們也稱此為天氣驅(qū)動銷售儀表板(Dashboard)�?蛻艚尤胩鞖忸A(yù)測數(shù)據(jù)后、同時將假日、價格、促銷等因子由ERP同步接入,天氣驅(qū)動銷售儀表板實時顯示最新的銷售預(yù)測數(shù)字,輸出內(nèi)容包括:城市、總銷售預(yù)測量、各品牌銷售預(yù)測量、各渠道銷售預(yù)測量以及相關(guān)的天氣數(shù)據(jù)與預(yù)警信息。
圖9 天氣驅(qū)動業(yè)務(wù)銷售預(yù)測示意畫面
由經(jīng)驗判斷開始使用更多的數(shù)據(jù)與采用大數(shù)據(jù)相關(guān)技術(shù)開始數(shù)據(jù)驅(qū)動(Data Driven)經(jīng)營企業(yè),天氣驅(qū)動銷售讓企業(yè)做出下列舉措變化與趨勢:
- 企業(yè)的產(chǎn)銷計劃(SOP: Sales & Operation Planning)得到定量的科學(xué)化預(yù)測支持。
- 公司經(jīng)營與渠道商開始了解天氣預(yù)報與影響,根據(jù)數(shù)據(jù)進行采購與銷售。
- 開始天氣相關(guān)的營銷活動(Campaign)。
- 根據(jù)天氣因果性,開始思索如何精確的投放廣告(根據(jù)目前天氣預(yù)報的時長準(zhǔn)確程度,還無法應(yīng)對目前傳統(tǒng)廣告采購規(guī)則,但移動廣告則非常有機會)。
- 電商平臺根據(jù)各地天氣變化預(yù)報,調(diào)整推送受天氣驅(qū)動商品。
五、總結(jié)討論
本文通過公共數(shù)據(jù)(氣象數(shù)據(jù))結(jié)合行業(yè)數(shù)據(jù)實際探討兩種不同交易形態(tài)的業(yè)務(wù):B2B與B2C,完成通過實際交易數(shù)據(jù)與天氣數(shù)據(jù)分析挖掘相關(guān)性與因果性實現(xiàn)天氣驅(qū)動(Weather Driven)的實踐,促使數(shù)據(jù)驅(qū)動(Data Driven)能夠真實落地協(xié)助行業(yè)在同質(zhì)化非常嚴重的產(chǎn)業(yè)環(huán)境中快速回應(yīng)挑戰(zhàn);但在大環(huán)境下,企業(yè)對于開始數(shù)據(jù)驅(qū)動業(yè)務(wù)管理,總是希望以最低的投入讓現(xiàn)有的資料、數(shù)據(jù)、IT等資源以最低成本、低風(fēng)險又有效的方式完成數(shù)據(jù)驅(qū)動的企業(yè)經(jīng)營,造成執(zhí)行者必須面對以有限資源追求極大化成效的挑戰(zhàn),也造就企業(yè)開始數(shù)據(jù)驅(qū)動業(yè)務(wù)管理變革上的風(fēng)險。
天氣雖然影響眾多行業(yè),但是天氣終究僅是一項影響因子;我們進行天氣驅(qū)動業(yè)務(wù)分析業(yè)務(wù)實踐中,天氣驅(qū)動銷售以快速消費品(FMCG)行業(yè)銷售數(shù)據(jù)+天氣數(shù)據(jù)的效果反饋最佳,主要是因消費者可以用低成本抵抗天氣帶來的影響,本文所提及的酒精性飲料快速消費品的實際案例。其他像是大氣污染預(yù)報、醫(yī)療保�。℉ealthcare)、農(nóng)林漁牧也有相當(dāng)正面的反饋;但是對于需要產(chǎn)品生命周期較長、售價較高、品牌占比較重的行業(yè)或領(lǐng)域則需要更進一步的探討。
在快速消費品的天氣驅(qū)動銷售雖然可以得到很好的效果,又可以細分為不同的區(qū)域(市場),以酒精性飲料為例,在城市G與城市S兩個城市該品牌已經(jīng)非常成熟,最終得到的預(yù)測準(zhǔn)確性也非常高,可是在城市W對該品牌還屬于新興市場(Emerging Market)與天氣的相關(guān)性遠低于該酒精性飲料口碑、品牌認知與當(dāng)?shù)乜谖断埠玫纫蛩氐挠绊憽S鸾q服的數(shù)據(jù)結(jié)果同樣說明了類似的結(jié)論,特別呈現(xiàn)在羽絨服的功能性與服飾特性上,例如在城市Q這樣冬天非常寒冷的區(qū)域就會更重視功能性,而像是城市G地區(qū)消費者更注重的是服『飾』的功能。
從天氣驅(qū)動銷售角度來看數(shù)據(jù)采集:酒精性飲料項目的數(shù)據(jù)來源于ERP以及渠道商的GO-TO-MARKET銷售數(shù)據(jù),有兩項特點:(1)國內(nèi)企業(yè)的ERP系統(tǒng)主要追求的目標(biāo)是財務(wù)記賬導(dǎo)向(以符合會計準(zhǔn)則的記錄為依據(jù)),可信的是交易數(shù)量與金額的正確,但無法記錄真實的交易時間;(2)渠道商的GO-TO-MARKET銷售數(shù)據(jù)受到返利(Rebate)政策影響,所有的交易數(shù)據(jù)都會因不同區(qū)域結(jié)算返利或渠道申報銷售考核的時間點而無法記錄真實的交易時間。這兩項特點發(fā)生在非常多企業(yè)CRM(Customer Relationship Management)、ERP系統(tǒng)上,所以若需要進行天氣驅(qū)動銷售,需要投入更多的精力了解每一筆數(shù)據(jù)與每一個字段的業(yè)務(wù)含義,才有機會真正幫助到企業(yè)開始好的數(shù)據(jù)驅(qū)動管理(理解業(yè)務(wù)才能真正解決商業(yè)問題)。
成功的數(shù)據(jù)驅(qū)動業(yè)務(wù)管理取決于設(shè)定正確的商業(yè)問題(Business Question),通過對行業(yè)的理解不斷地提出可能的假設(shè)(Hypothesis)并使用大數(shù)據(jù)的方法論進行驗證每一項假設(shè),直到可驗證數(shù)據(jù)因果性的階段,并測試成功,才是完整的數(shù)據(jù)驅(qū)動業(yè)務(wù)實踐(Practice)。錯誤的問題會增加企業(yè)在推動數(shù)據(jù)驅(qū)動管理業(yè)務(wù)成本與風(fēng)險,例如我們將商業(yè)問題設(shè)定為酒精性飲料銷售與天氣要素的相關(guān)性,我們很容易得到天氣炎熱酒精性飲料銷售量就會上升的結(jié)論(甚至不用數(shù)據(jù)就可以得到此結(jié)論),但是對于企業(yè)需要的是幫助企業(yè)用數(shù)據(jù)去掌握、洞悉(Insight)、預(yù)測商業(yè)行為,而不是為了大數(shù)據(jù)而大數(shù)據(jù)。
本文主要研究天氣驅(qū)動的銷售預(yù)測,在酒精性飲料銷量和羽絨服銷量兩個領(lǐng)域,利用天氣進行預(yù)測均取得了十分優(yōu)秀的效果。本文仍有很多可以進一步研究的空間;目前,我們研究的時間周期都只有三年,而很多特殊的氣象現(xiàn)象,如厄爾尼諾(El Nino)、激烈天氣等,只有在比較長的時間下才能表現(xiàn)出來,我們會進一步收集更多的數(shù)據(jù)改善我們已有的實踐積累。在我們的數(shù)據(jù)中,特別是酒精性飲料數(shù)據(jù),有很多異常的情況無法用現(xiàn)有的數(shù)據(jù)解釋,需要和行業(yè)進行深入交流才能夠進一步呈現(xiàn)出更好的數(shù)據(jù)驅(qū)動業(yè)務(wù)效果,好的數(shù)據(jù)驅(qū)動業(yè)務(wù)一定是來自于深入行業(yè)了解行業(yè)的努力與積累。
參考文獻
[1] 施瓦茨. 氣候經(jīng)濟學(xué)[M]. 氣象出版社, 2012.
[2] Byunglak Lee, Victor J. Tremblay. Advertising and the U.S. Market Demand for Beer.[J]. Applied Economics, 1992, 24(1):69-76.
[3] Rojas C, Peterson E B. Demand for differentiated products: Price and advertising evidence from the U.S. beer market [J]. International Journal of Industrial Organization, 2008, 26(1):288-307.
[4] Voleti S, Ghosh P. A non-parametric model of residual brand equity in hierarchical branding structures with application to US beer data[J]. Journal of the Royal Statistical Society, 2014, 177(1):135–152.
[5] Empen J, Hamilton S F. How Do SUPERMARKETS RESPOND TO BRAND-LEVEL DEMAND SHOCKS? EVIDENCE FROM THE GERMAN BEER MARKET[J]. American Journal of Agricultural Economics, 2013, 95(5):1223-1229.
[6] 劉一伶, 杜春生, 張輝. 羽絨服銷量預(yù)測模型及其商業(yè)應(yīng)用研究[J]. 現(xiàn)代經(jīng)濟信息, 2012(19):175-176.
[7] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1):5–32.
[8] Fernández-Delgado M, Cernadas E, Barro S, et al. Do we need hundreds of classifiers to solve real world classification problems?[J]. Journal of Machine Learning Research, 2014, 15(1):3133-3181.
來源:統(tǒng)計之都
作者:羅應(yīng)璉(北京維艾思氣象信息科技有限公司),朱珊(中山大學(xué)華南統(tǒng)計科學(xué)研究中心) ,何順(中山大學(xué)華南統(tǒng)計科學(xué)研究中心),周翔(中山大學(xué)華南統(tǒng)計科學(xué)研究中心),李昶(北京維艾思氣象信息科技有限公司) ,王學(xué)欽(中山大學(xué)華南統(tǒng)計科學(xué)研究中心)
鏈接:http://cos.name/2016/05/weather-driven-industry-sales-big-data/
- 上一篇:四川西藏云南等地局地有暴雨 東北地區(qū)等地多陣性降水 2016/9/5
- 下一篇:習(xí)近平會見巴西總統(tǒng)特梅爾 2016/9/3