聯(lián)系方式 Contact

天氣在線(北京)氣象科技有限公司

地址:北京市海淀區(qū)海淀西大街36號9層

電話:010-58995339

手機:18611808504

傳真:010-58995339

網(wǎng)址:lqblg.com.cn

搜索 Search

天氣驅(qū)動行業(yè)銷售大數(shù)據(jù)

 2016-09-03 10:41:53  點擊:

摘要:自建國以來我國的氣象系統(tǒng)已經(jīng)十分完備,2015年中國氣象局發(fā)布27號令后使得氣象數(shù)據(jù)邁向開放數(shù)據(jù)(Open Data)新階段,行業(yè)與公眾可以使用海量氣象數(shù)據(jù)助力企業(yè),目前行業(yè)數(shù)據(jù)和海量氣象數(shù)據(jù)還沒有得到完全應(yīng)用。本文主要研究氣象數(shù)據(jù)對銷售的影響,進而利用氣象數(shù)據(jù)特性完成天氣驅(qū)動行業(yè)銷售的預(yù)測。我們以兩個零售行業(yè)的銷售數(shù)據(jù)為例,結(jié)合氣象局提供的天氣數(shù)據(jù)進行分析。同時,我們在分析中加入了經(jīng)濟因素,如上證指數(shù)和CPI數(shù)據(jù)來提供外部環(huán)境支持。與傳統(tǒng)的預(yù)測不同,在氣象數(shù)據(jù)中,我們不僅知道目前時間點的數(shù)據(jù),也有目前公眾唾手可得的未來七天精確天氣預(yù)報。我們采用目前流行的機器學(xué)習(xí)算法隨機森林來建模,得到了很好的泛化結(jié)果。我們的預(yù)測模型可以解決銷售行業(yè)傳統(tǒng)通過從業(yè)人員的主觀判斷進行銷售預(yù)測的局限,利用大數(shù)據(jù)分析實現(xiàn)更加精確可靠的指導(dǎo)。

一、業(yè)務(wù)介紹

天氣一直是指導(dǎo)人們生活的重要因素,德國知名的經(jīng)濟議題觀察家弗里德黑姆˙施瓦茨(Friedhelm Schwarz)發(fā)表的著作《氣候經(jīng)濟學(xué)》[1]提到地球上有80%的經(jīng)濟活動都是由于天氣因素影響甚至決定的,如:農(nóng)作物受寒害影響收成及市場價格、涼夏造成冰品銷售下降、暖冬縮短羽絨服銷售時間、出行航班受天氣影響延誤以及所有的戶外活動等。目前我國(除西部部分人口稀少的區(qū)域)的氣象系統(tǒng)已經(jīng)十分完善,氣象觀測網(wǎng)絡(luò)從在軌衛(wèi)星、雷達、高空氣球、地面觀測站點(降水、風(fēng)速、風(fēng)向、相對濕度、大氣壓力、氣溫)到地下的農(nóng)業(yè)觀測站(土壤墑情:土表下的溫度、濕度等),民眾可以通過過互聯(lián)網(wǎng)或智能手機直接了解天氣預(yù)報。目前積累起來的氣象數(shù)據(jù)量也十分龐大(每年以PB等級的速度增長),但是目前這些數(shù)據(jù)還沒有得到充分的應(yīng)用。下面我們將闡述利用行業(yè)數(shù)據(jù)和氣象數(shù)據(jù)進行銷售預(yù)測、使用天氣規(guī)劃營銷活動的全過程。

在銷售領(lǐng)域,氣象一直是一個十分重要的影響因素。人們根據(jù)天氣來情況來決定購買的衣服,所吃的食物,甚至是飲用的飲品,特別是對于酒精性飲料和羽絨服非常直觀受天氣影響的零售商品,天氣對其銷量起了重要作用。因此相關(guān)從業(yè)人員會十分關(guān)注天氣預(yù)報,并根據(jù)天氣來進行產(chǎn)品設(shè)計、營銷方案、采購與銷售等行為的決策。但是這種做法只是根據(jù)從業(yè)人員的經(jīng)驗進行判斷,結(jié)果十分主觀,容易導(dǎo)致偏差而做出錯誤的產(chǎn)銷計劃(SOP: Sales & Operation Planning),因此如何利用行業(yè)數(shù)據(jù)、氣象數(shù)據(jù)與其他公眾數(shù)據(jù)進行精確的數(shù)字化銷售預(yù)測是行業(yè)研究的熱點,而業(yè)務(wù)受天氣等外部環(huán)境因素驅(qū)動的關(guān)聯(lián)性與因果性研究落成精準(zhǔn)營銷也是本文強調(diào)的重點。

氣象的觀測體系是由龐大的物聯(lián)網(wǎng)(IOT: Internet of Things)構(gòu)架而成,每分鐘都在監(jiān)測相關(guān)天氣要素(風(fēng)速、風(fēng)向、溫度、相對濕度、大氣壓力、降水等),協(xié)同全世界各國的觀測網(wǎng)絡(luò),同時結(jié)合地球科學(xué)、大氣物理、流體力學(xué)等專業(yè)知識,通過大型計算機技術(shù)完成數(shù)值天氣預(yù)報(Numerical Weather Prediction)。目前的預(yù)報模式提供給公眾的時間長度為15天,48小時內(nèi)為逐小時預(yù)報,后續(xù)為逐日預(yù)報。由于觀測體系的完備以及計算技術(shù)能力的大幅提升,預(yù)報的精細度也已經(jīng)達到平方公里涵蓋以及分鐘級別,天氣預(yù)報在一定的時間周期內(nèi)已經(jīng)相當(dāng)成熟且具有高準(zhǔn)確度。我們透過行業(yè)數(shù)據(jù)與氣象歷史數(shù)據(jù)進行相關(guān)性分析確立結(jié)果后,根據(jù)業(yè)務(wù)影響關(guān)系、數(shù)據(jù)同比影響等特性,低風(fēng)險地進行因果性驗證。天氣數(shù)據(jù)有可靠的預(yù)報準(zhǔn)確度,是氣象數(shù)據(jù)可以作為天氣驅(qū)動行業(yè)大數(shù)據(jù)分析的最大特點。

本文主要研究兩項容易受天氣因素驅(qū)動(影響)的銷售預(yù)測問題,業(yè)務(wù)形態(tài)特別選取B2B(Business to Business)與B2C(Business to Customer)兩種目前多數(shù)的業(yè)務(wù)類型:酒精性飲料的渠道銷售預(yù)測以及電商平臺的羽絨服銷量預(yù)測。酒精性飲料的銷量由很多因素影響,Lee et al.[2]和Rojas et al.[3]研究了廣告對酒精性飲料銷量的影響,Voleti et al.[4]和Empen et al.[5]研究了品牌資產(chǎn)對于酒精性飲料銷量的影響。而在酒精性飲料行業(yè)中,還有一個公認對酒精性飲料銷量影響極大的指標(biāo):天氣。2015年我國酒精性飲料行業(yè)整體銷量下滑,很多人都歸因于2015年整體氣溫偏低的。一般酒精性飲料銷量呈現(xiàn)季節(jié)性變化,天氣寒冷的時候消費者對于酒精性飲料的需求會下降,銷量會比較低;而在天氣炎熱的時候,酒精性飲料的銷量會明顯增高;本項目不考慮終端零售數(shù)據(jù),僅研究酒精性飲料的渠道銷售情況是否受天氣所驅(qū)動,也就是各階層的渠道商實際銷售情況是否受天氣影響。

對于羽絨服來說,天氣的影響更加明顯。從生活經(jīng)驗來看,人們主要是在冬天購買羽絨服,而夏天基本上不會有商家出售羽絨服。中國氣象局公共氣象服務(wù)中心和凡客誠品等公司合作利用氣象數(shù)據(jù)進行羽絨服銷量的研究,僅利用平均溫度的三次多項式方程就得到了比較準(zhǔn)確的結(jié)果(劉一伶等[6]),這表明天氣的確對羽絨服的銷量有十分重要的影響。

在不同的地區(qū),天氣對銷量的影響也有明顯區(qū)別。在中國北方地區(qū),四季很明顯,換季時時間間隔比較分明,因此人們能快速地根據(jù)氣溫變化進行反應(yīng)。中國南方地區(qū)的換季卻十分反復(fù),經(jīng)常會出現(xiàn)冬天穿夏裝的情況,整體濕度也偏高,因此人們根據(jù)季節(jié)變化和氣溫變化進行的反應(yīng)會和北方有很大差別。本文在研究天氣對銷量的影響時,會分城市進行分析,發(fā)現(xiàn)不同城市中天氣對銷量的影響規(guī)律。

 

二、數(shù)據(jù)描述

(一)酒精性飲料銷售數(shù)據(jù)描述

我們的酒精性飲料銷售數(shù)據(jù)來源于某知名酒精性飲料公司渠道銷售數(shù)據(jù),采集來源為ERP(Enterprise Resource Planning)系統(tǒng)的一級渠道銷售數(shù)據(jù):銷售訂單(Sales Order)與對應(yīng)的提貨單(Delivery Note)以及經(jīng)銷商Go-To-Market系統(tǒng)的銷售二級渠道數(shù)據(jù)。數(shù)據(jù)為2013年至2015年五個經(jīng)銷商位在城市G、城市S、城市H、城市Z、城市W的銷售數(shù)據(jù);第一部分的一級渠道銷售數(shù)據(jù)是從工廠到經(jīng)銷商的數(shù)據(jù),第二部分的二級渠道銷售數(shù)據(jù)是從經(jīng)銷商到售點的數(shù)據(jù)。工廠指的是酒精性飲料的生產(chǎn)工廠,該酒精性飲料公司在不同的城市均有經(jīng)銷商(渠道商),分為高檔、中高檔、中檔、低擋四個等級,不同的經(jīng)銷商會根據(jù)售點的需求要求工廠供貨。二級渠道售點一般是酒吧、KTV、餐飲、零售等。

從工廠到經(jīng)銷商的數(shù)據(jù)也就是一級渠道銷售數(shù)據(jù),數(shù)據(jù)中的字段見表1�?蛻羲褂玫腅RP系統(tǒng)提供多項業(yè)務(wù)日期進行記錄區(qū)分出不同業(yè)務(wù)意義:訂單日期(Order Date)、需求日期(Requirement Date)、訂單釋放日期(Order Released Date)、發(fā)貨日期(Shipping Date)、交貨日期(Post Good Issue Date),交易數(shù)據(jù)皆以日為單位,明確各個交易日期數(shù)據(jù)在各地區(qū)實際進行業(yè)務(wù)錄入的商業(yè)意義是對業(yè)務(wù)數(shù)據(jù)描述理解的第一步;(1)訂單日期,業(yè)務(wù)建立訂單時客戶ERP系統(tǒng)的日期;(2)需求日期,一級渠道商根據(jù)庫存與銷售預(yù)測的需要到貨日期,但目前此字段沒有嚴格要求鍵入實際需求日期;(3)訂單釋放日期:在客戶流程中更多的是指客戶賬務(wù)信用額度滿足;(4)出貨日期:指從工廠到達一級渠道經(jīng)銷商的時間,在大多數(shù)的運輸時間都在一天以內(nèi);(5)交貨日期:在業(yè)務(wù)流程中是用以界定『貨權(quán)』狀態(tài)的時間點,在本項目數(shù)據(jù)多與出貨日期字段相同。根據(jù)業(yè)務(wù)定義應(yīng)該是客戶需求日期(Requirement Date)將會是天氣驅(qū)動業(yè)務(wù)關(guān)系中最強的字段,但所取得的數(shù)據(jù)理解發(fā)貨日期(Shipping Date)更接近客戶的實際需要的實際時間;由于客戶的業(yè)務(wù)流程錄入時沒有強制所有訂單嚴格要求在ERP系統(tǒng)建立訂單的相關(guān)日期字段,在清洗數(shù)據(jù)時日期的選擇上與業(yè)務(wù)單位從實際業(yè)務(wù)流程與數(shù)據(jù)結(jié)果來選取最能真實呈現(xiàn)天氣驅(qū)動業(yè)務(wù)的日期字段。經(jīng)過分析,在實際發(fā)貨日期下銷量和天氣的相關(guān)度也比較高,所以下面均采用實際發(fā)貨日期作為時間基準(zhǔn)。對于每個產(chǎn)品,其容量會有很大不同,有些是罐裝的,有些是桶裝的,在飲品行業(yè)中采用物品體積來衡量銷量的多少,銷售數(shù)量(瓶、罐)則為輔助說明銷售趨勢。

表1 一級渠道銷售數(shù)據(jù)的字段描述

數(shù)據(jù) 一級渠道銷售數(shù)據(jù)(僅列出最終使用字段)
Id 字段名Field name 字段說明 備注說明
1 城市 銷售城市;一級渠道所在城市 城市G、城市S、城市H、城市Z、城市W
2 產(chǎn)品 酒精性飲料產(chǎn)品描述 包括了品牌、子品牌、容量、包裝等內(nèi)容
3 訂單日期(Order Date)需求日期(Requirement Date)

釋放日期(Released Date)

發(fā)貨日期(Shipping Date)

交貨日期(PGI Date)

下單日期客戶需要日期

訂單釋放日期

發(fā)貨離廠日期

交貨日期

2013年至2015年共計三年
4 交貨單數(shù)量發(fā)貨數(shù)量 實際發(fā)貨數(shù)量 單位:件
5 體積 酒精性飲料的容量 飲品行業(yè)計量單位單位:百升

從一級渠道(經(jīng)銷商)到二級渠道數(shù)據(jù)的字段見表2。和一級渠道數(shù)據(jù)相同的是,該數(shù)據(jù)雖然不記錄在ERP系統(tǒng),而記錄在渠道商的GO-TO-MARKET系統(tǒng)中,也定義有不同業(yè)務(wù)意義的日期系統(tǒng)審核日期(Audit Date)與發(fā)貨日期(Shipping Date),兩個日期在數(shù)據(jù)上幾乎一致,而訂單日期(Order Date)一般是在月底記錄(渠道銷售返利模式特性),所以該日期并不能準(zhǔn)確反映天氣驅(qū)動的實際日期,我們同樣采用發(fā)貨日期作為時間基準(zhǔn)。對銷量自然箱、銷量百升、銷量標(biāo)準(zhǔn)箱等行業(yè)特殊性記錄,在與合作業(yè)務(wù)方交流后,與一級渠道數(shù)據(jù)相同,選用銷量百升。

表2 酒精性飲料二級渠道數(shù)據(jù)的字段描述

數(shù)據(jù) 二級渠道銷售數(shù)據(jù)(僅列出最終使用字段)
Id 字段名Field name 字段說明 備注說明
1 auditdateorderdate

shipdate

系統(tǒng)審核日期訂單日期

發(fā)貨日期

2013年1月1日到2015年11月30日
2 城市 二級渠道所在城市 城市G、城市S、城市H、城市Z、城市W
3 渠道類型 二級渠道類型 夜店、KTV、酒吧等;高端餐飲;普通餐飲;零售商;
4 品牌家族 標(biāo)注品牌所屬的家族名稱 一個系列的大品牌
5 子品牌 品牌細分 品牌的細分
6 出貨體積 酒精性飲料的容量(單位:百升) 飲品行業(yè)計量單位

酒精性飲料屬于快速消費品(FMCG:Fast Moving Consumer Goods),價格的變更、促銷方案、返利活動、新品上市等都會影響銷售的變化,導(dǎo)致無法真實分析挖掘出天氣驅(qū)動行業(yè)的真實情況。業(yè)務(wù)方提供了其他方面的數(shù)據(jù),包括含稅價格和促銷信息。具體見表3。

表3 酒精性飲料其他數(shù)據(jù)的字段描述

數(shù)據(jù) 其他影響銷售數(shù)據(jù)
Id 字段名Field name 字段說明 備注說明
1. 日期 某個價格的期限 每一個產(chǎn)品的價格
2. 價格 每百升物料的月銷售含稅價
3. MonthStart Date

End Date

價格或促銷活動月份與時間段
4. 促銷分類 促銷類別 22類

我們分別對一級渠道銷售數(shù)據(jù)以及二級渠道銷售數(shù)據(jù)進行整合,在某一個日期下,有不同城市不同品牌的銷售數(shù)據(jù),如果某個城市的某個品牌在某天無銷售數(shù)據(jù),我們認為其銷售額為0。同時由于按周的銷量比較穩(wěn)定,規(guī)律比較明顯,我們以周為單位進行分析,銷量為一周的銷量加總,價格為一周的平均。

(二)羽絨服銷售數(shù)據(jù)描述

羽絨服銷售數(shù)據(jù)來自電商平臺交易記錄(銷售數(shù)據(jù)不區(qū)分公司與相關(guān)品牌),時間長度從2011年到2013年,包括了全國275個城市。我們提取出和酒精性飲料數(shù)據(jù)中匹配的五個城市來分析,同時加入一個北方城市:城市Q。數(shù)據(jù)中除了日期和城市兩個字段之外,還有銷售總金額和銷售總件數(shù)。表4總結(jié)了六個城市的數(shù)據(jù)量(Observation)。

表4 羽絨服銷量數(shù)據(jù)五個城市的數(shù)據(jù)量

城市 Observation
城市G 1096
城市S 1100
城市H 1096
城市Z 1099
城市W 1100
城市Q 1079

從2011年1月1日到2013年12月31日共1096天,城市S、城市Z、城市W數(shù)據(jù)中多出來的數(shù)據(jù)量是由于某一天的銷售量有兩條記錄導(dǎo)致的,我們把這些數(shù)據(jù)按天合并。而城市Q的某些天沒有數(shù)據(jù),我們認為其銷量為0,氣象數(shù)據(jù)則取相應(yīng)時間段與觀測城市的數(shù)據(jù)。與酒精性飲料數(shù)據(jù)一樣按照日粒度進行整理,同時將一周銷量加總作為周銷量數(shù)據(jù),按兩種時間維度進行分析。

(三)天氣數(shù)據(jù)描述

快速消費品的酒精性飲料以及功能服飾類的羽絨服,業(yè)務(wù)數(shù)據(jù)的最小時間顆粒度為天,而天氣觀測數(shù)據(jù)最小時間顆粒度為分鐘級。從公眾氣象信息的獲取、消費購物的習(xí)慣以及氣象數(shù)據(jù)日為單位的觀測數(shù)據(jù)特性出發(fā),主要以日作為天氣驅(qū)動消費的最小時間基礎(chǔ)單位,使用的相關(guān)氣象數(shù)據(jù)如表5。需要注意的是,氣象數(shù)據(jù)可能會因為設(shè)備故障或是其他因素影響造成缺測情況,我們所選的都為國家級觀測站,避免缺測導(dǎo)致的數(shù)據(jù)質(zhì)量問題,而在采取以周為時間基礎(chǔ)單位進行分析時,以周天氣數(shù)據(jù)記錄的分位數(shù)為基礎(chǔ)。

表5 日觀測氣象數(shù)據(jù)要素

數(shù)據(jù) 氣象數(shù)據(jù)要素(日)
Id 字段名Field name 字段說明 備注說明
1 SiteId 臺站編號 根據(jù)觀測臺站所在位置可以明確所在地(對應(yīng)到行政區(qū),如北京市東城區(qū))
2 Day 觀測日期
3 PressureAverage 日均大氣壓力 (單位:MPA)
4 PressureMax 日最大大氣壓力 (單位:MPA)
5 PressureMin 日最小大氣壓力 (單位:MPA)
6 TemperatureAverage 日平均氣溫 (單位:℃)
7 TemperatureMax 日最高氣溫 (單位:℃)
8 TemperatureMin 日最低氣溫 (單位:℃)
9 RelativeHumidityAverage 日平均相對濕度 (單位:℃)
10 RelativeHumidityMin 日最小相對濕度 (單位:%)
11 Precipitation20_8 前一日20時至當(dāng)日8時的各時段降水量的累加值 (單位:mm)
12 Precipitation8_20 由當(dāng)日08時至當(dāng)日20時的各時段降水量的累加值 (單位:mm)
13 Precipitation20_20 由前一日20時至當(dāng)日20時的各時段降水量的累加值 (單位:mm)
14 EvaporationSmall 日最小蒸發(fā)量 (單位:mm)
15 EvaporationLarge 日最大蒸發(fā)量 (單位:mm)
16 WindSpeedAverage 平均風(fēng)速 (單位: m/s)
17 WindSpeedMax 最大風(fēng)速 (單位: m/s)
18 WindSpeedMaxDirection 最大風(fēng)速的風(fēng)向 (度)
19 WindSpeedExtreme 極大風(fēng)速 (單位: m/s)
20 WindSpeedExtremeDirection 極大風(fēng)速的風(fēng)向 (度:角度)
21 SunshineHour 日照時長 (單位:小時)
22 SurfaceTemperatureAverage 日地表均溫 (單位:℃)
23 SurfaceTemperatureMax 日地表最高溫 (單位:℃)
24 SurfaceTemperatureMin 日地表最低溫 (單位:℃)

氣象的數(shù)據(jù)分析,除了以日值作為分析要點外,還有其他幾個特性也是在進行天氣驅(qū)動行業(yè)分析時需要考量的,如:連續(xù)幾日高于35℃高溫、連續(xù)幾日降雨、連續(xù)幾日低于10℃、日夜溫差超過20℃,等天氣要素模式(pattern)類型的組合都是天氣驅(qū)動行業(yè)的要素,所以除了表5的天氣要素外還要設(shè)計多種天氣要素模式(pattern)。

天氣上的重大事件,如臺風(fēng)也會對酒精性飲料銷量產(chǎn)生影響,所以我們也將受影響的時間、臺風(fēng)等級加入在氣象數(shù)據(jù)中(臺風(fēng)主要反映在天氣要素的風(fēng)速、降雨等)。

公眾目前獲取最長的天氣預(yù)報為15天,羽絨服以及酒精性飲料的數(shù)據(jù)都自2011年與2013年開始,當(dāng)時公眾所獲取的天氣預(yù)報數(shù)據(jù)多為7天,所以在數(shù)據(jù)清洗擬合也會進行多種時間窗的平移,以確定業(yè)務(wù)數(shù)據(jù)是受當(dāng)日實際感受的驅(qū)動,還是天氣預(yù)報的提前反應(yīng)。

(四)補充數(shù)據(jù)描述

除了合作方提供的銷售數(shù)據(jù)和氣象局的數(shù)據(jù),還要考慮其他能夠量化并獲取的可能影響銷量的數(shù)據(jù)。消費者的需求也可能受經(jīng)濟因素的影響,因此我們抓取了數(shù)據(jù)時間段內(nèi)的上證指數(shù)和居民消費價格指數(shù)(Consumer Price Index,CPI)。由于周末收盤,在周末沒有上證指數(shù)數(shù)據(jù),周末的上證指數(shù)我們用周五的來填補。而我們能獲得的CPI數(shù)據(jù)是一個月統(tǒng)計一次,因此在某一個月內(nèi),我們統(tǒng)一用一個CPI數(shù)值。除此之外,對于酒精性飲料銷售來說,在有重大賽事時,如世界杯等,酒精性飲料銷量會顯著上升,因此我們查找了數(shù)據(jù)時間段內(nèi)可能會影響到酒精性飲料銷量的重大事件加入數(shù)據(jù)中。加入event變量,如果當(dāng)天有重大事件,event為1,否則為0。在法定假日時,售點和經(jīng)銷商一般會提前存貨,因此公司的銷量會增加,我們把這個因素也考慮進去,在數(shù)據(jù)中增加holiday變量,假如當(dāng)天是法定假日標(biāo)記為1,否則標(biāo)記為0。同樣,月末也會出現(xiàn)囤貨的現(xiàn)象,與法定假期一樣,我們將月末標(biāo)記為1,否則標(biāo)記為0。

 

三、數(shù)據(jù)建模

為了找到所有氣象要素中真正影響銷量的要素,我們利用皮爾森(Pearson)相關(guān)性進行檢驗,發(fā)現(xiàn)平均溫度是與酒精性飲料銷量以及羽絨服銷量關(guān)系最大的要素。因此在描述性分析部分,我們用平均氣溫來探索銷量與天氣之間的關(guān)系。

(一)酒精性飲料數(shù)據(jù)的建模

(1)描述性分析

圖1展示了一級渠道的銷量按月份的分布情況(縱軸實際銷售體積涉及商業(yè)秘密不予展示,僅用于說明趨勢),不同顏色代表不同年份,橫坐標(biāo)代表月份、縱坐標(biāo)代表百升的銷量。城市G和城市S是兩個銷量大城市;夏天的銷量有明顯的增高,而當(dāng)天氣轉(zhuǎn)冷的時候銷量會下降;在城市G,銷量在逐年上升,但是在城市S、城市Z、城市H、城市W這四個城市卻沒有這樣的趨勢;城市S、城市Z、城市H、城市W這四個城市七八月之后的銷量均出現(xiàn)了急速下降。圖2展示了二級渠道的銷量按月份的分布情況(縱軸實際銷售體積涉及商業(yè)秘密不予展示,僅用于說明趨勢),其趨勢與一級渠道一樣,也呈現(xiàn)出季節(jié)的周期性變化。

從銷量按月份的趨勢來看,銷量確實與天氣有一定的關(guān)系。我們在分析的時候分別以天(銷售日與當(dāng)日天氣數(shù)據(jù),以及銷售日數(shù)據(jù)分別平滑1天到7天;區(qū)分是受當(dāng)時天氣感受的影響,還是接收天氣預(yù)報后所做的反應(yīng))還有周(采用周天氣要素的分位數(shù)),最終是以周為單位進行預(yù)測的,因此下面我們按周對銷量和天氣進行描述。圖3和圖 4分別為二級渠道和一級渠道的銷量和天氣按周的趨勢,橫軸為周,左邊縱軸為銷量,右邊縱軸為平均氣溫。出現(xiàn)的負值銷量表示這一周有退貨的情況,而且退貨數(shù)量要比訂貨數(shù)量高,在銷量比較低的城市會出現(xiàn)這樣的現(xiàn)象。在城市G,銷量和天氣的趨勢比較明顯,而城市S會出現(xiàn)一些異常情況,城市H、城市W、城市Z的趨勢比較弱,特別是城市W,其銷量整體偏低,就算氣溫有明顯的上升,其銷量也沒有增長。

城市G
 city1
城市S 城市Z
city2 city3
城市H 城市W
city4 city5

圖1 一級渠道銷量按月趨勢

城市G
city6
城市S 城市Z
city7 city8
城市H 城市W
city9 city10

圖2 二級渠道銷量按月趨勢

城市G
city11
城市S 城市Z
city12 city13
城市H 城市W
city14 city15

圖3 一級渠道銷量與平均氣溫按周趨勢(橘色曲線為天氣平均溫度要素,藍色曲線為銷量)

 

城市G
city16
城市S 城市Z
city17 city18
城市H 城市W
city19 city20

圖4 二級渠道銷量與平均氣溫按周趨勢(橘色曲線為天氣平均溫度要素,藍色曲線為銷量)

 

(2)模型設(shè)定

時間序列數(shù)據(jù)一般由長期趨勢、季節(jié)變動、循環(huán)變動、不規(guī)則變動四個部分組成。其中長期趨勢指的是隨著時間的變化;季節(jié)變動指隨著季節(jié)變化的周期性變動;循環(huán)變動指以若干年為單位的變化;不規(guī)則變動是隨機變化導(dǎo)致的波動。本文的數(shù)據(jù)時間間隔均為3年左右,所以不存在循環(huán)變動項。我們把數(shù)據(jù)分解為趨勢項、季節(jié)項和隨機波動項,以二級渠道銷售數(shù)據(jù)為例,分解情況如圖5(縱軸實際銷售體積涉及商業(yè)秘密不予展示,僅用于說明趨勢)。分解之后,雖然由于目前數(shù)據(jù)中還有很多沒有測量出來的因素,白噪聲部分不是完全由隨機波動影響的,但是季節(jié)項按季節(jié)的周期趨勢更加明顯了,而趨勢項隨著時間的變化呈現(xiàn)一定的波動。我們對分解出的季節(jié)項和趨勢項分別進行預(yù)測。

對于季節(jié)項部分,我們采用隨機森林進行預(yù)測。隨機森林由2001年被Breiman 提出[7],是一種基于樹的集成學(xué)習(xí)算法。Fernandez-Delgado et al. [8] 在121份數(shù)據(jù)集上進行了測試,證明隨機森林是在支持向量機、神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)算法中表現(xiàn)得最好的一個算法。對于我們的數(shù)據(jù)來說,很難看出天氣變化對銷量的影響呈現(xiàn)特定的函數(shù)關(guān)系,因此我們選用隨機森林這種不需要模型假設(shè)的非參數(shù)方法進行預(yù)測。

對于趨勢項部分,我們采用三次樣條進行預(yù)測。由于不同城市隨著時間變化的趨勢差別很大,利用三次樣條,我們可以擬合不同形狀的趨勢變化。

基于公眾可以便利的獲取氣象局提供的7天(最多15天)天氣預(yù)報前提,與以往的銷售預(yù)測不同,我們可以利用未來的天氣進行預(yù)測。同時,呈季節(jié)變化的銷量不僅受到了天氣和經(jīng)濟因素的影響,上一年同一個時間點的銷量和上一周的銷量也與當(dāng)前時間點的銷量有關(guān)系,因此我們把同比銷量和環(huán)比銷量也放入模型中。除此之外,為了考慮經(jīng)濟環(huán)境的影響,我們加入了上證指數(shù)和CPI。

(3)模型結(jié)果

我們從數(shù)據(jù)中剔除出最后三個月的數(shù)據(jù)來做測試集,剩下的部分均為學(xué)習(xí)集。通過真實值與預(yù)測值之間的誤差的絕對值占真實值的百分比來衡量預(yù)測誤差,預(yù)測誤差總結(jié)見表6:

表6 酒精性飲料銷量的預(yù)測誤差

城市 預(yù)測誤差
一級渠道 二級渠道
城市G 0.1133 0.1203
城市S 0.2808 0.2228
城市H 0.2821 0.3046
城市Z 0.4103 0.1454
城市W 0.4457 0.1988

城市G的預(yù)測效果是最好的,城市S次之。在所有天氣要素中(風(fēng)、溫度、相對濕度、大氣壓力、降雨),溫度要素與銷售量相關(guān)性最高,但是在圖3和圖4中,僅城市G可以看到銷量和天氣的氣溫要素走勢比較一致,而其他城市會出現(xiàn)氣溫上升,銷量反而下滑的情況,而且城市G的銷量波動趨勢也比較平穩(wěn)。

城市G
city21
城市S
city22
城市Z
city23
城市H
city24
城市W
city25

圖5 二級渠道銷量分解情況

 

(二)羽絨服數(shù)據(jù)建模

(1)描述性分析

圖6和圖7分別為羽絨服銷量與天氣之間的趨勢變化圖。雖然不同城市之間趨勢有差別,但是基本上都呈現(xiàn)當(dāng)氣溫開始下降的時候,銷量開始上升的趨勢。同時,不管是按銷量金額還是銷量件數(shù)都呈現(xiàn)逐年上升的情況。但是對于城市S來說,雖然每年的銷量金額都在上升,但是銷量件數(shù)卻僅在11年冬季出現(xiàn)了一個高峰后就急劇降低,需要進一步結(jié)合其他數(shù)據(jù)進行探討或是測試。

表7展示了銷量與平均氣溫之間的皮爾森(Pearson)相關(guān)度。除了城市S的銷量件數(shù)出現(xiàn)了異常之外,平均氣溫與銷量之間呈現(xiàn)負相關(guān),這表明隨著氣溫下降,羽絨服的銷量會上升,同時,相關(guān)度均在0.3左右,說明氣溫與銷量之間有比較強的關(guān)系。

表7 銷量與平均氣溫之間的皮爾森(PEARSON)相關(guān)系數(shù)

城市 銷量(成交價格:元) 銷量(件)
城市G -0.3980 -0.3332
城市S -0.3188 -0.0008
城市H -0.3267 -0.2888
城市Z -0.3043 -0.2828
城市W -0.3319 -0.2999
城市Q -0.2283 -0.2185

 

城市G
city26
城市S
city27
城市H
city28
城市Z
city29
城市W
city30
城市Q
city31

圖6 銷量(元)與平均氣溫的變化趨勢(紅色曲線為天氣,藍色曲線為銷量)

城市G
city32
城市S
city33
城市H
city34
城市Z
city35
城市W
city36
城市Q
city37

圖7 銷量(件)與平均氣溫的變化趨勢(紅色曲線為天氣,綠色曲線為銷量)

(2)模型設(shè)定

和酒精性飲料數(shù)據(jù)一樣,我們同樣將數(shù)據(jù)分解為趨勢項、季節(jié)項和隨機波動項。對于趨勢項我們依舊采用三次樣條去擬合,而對于季節(jié)項,由于我們僅用皮爾森(PEARSON)相關(guān)系數(shù)就已經(jīng)可以測量到平均氣溫與銷量之間很強的相關(guān)度,因此我們用線性回歸來進行預(yù)測。同樣,我們在模型中加入了環(huán)比銷量和同比銷量。而從圖6和7 中,可以看出,一般在氣溫達到峰值后的兩個星期,銷量達到峰值,因此我們在模型中加入比當(dāng)前時間點提前兩個星期的天氣因素。

(3)模型結(jié)果

和酒精性飲料數(shù)據(jù)一樣,我們剔除出最后三個月的數(shù)據(jù)來做測試集,剩下的部分均為學(xué)習(xí)集。通過真實值與預(yù)測值之間的誤差的絕對值占真實值的百分比來衡量預(yù)測誤差。表8展示了羽絨服數(shù)據(jù)的預(yù)測誤差,很明顯,除了城市S的銷量件數(shù)之外,其他部分的預(yù)測效果都很好,說明天氣對羽絨服銷量的影響的確十分大。

表8 羽絨服數(shù)據(jù)銷量預(yù)測結(jié)果

城市 預(yù)測誤差
銷量(元) 銷量(件)
城市G 0.0578 0.1000
城市S 0.0452 0.1537
城市H 0.0541 0.0885
城市Z 0.0527 0.0855
城市W 0.0433 0.0673
城市Q 0.0378 0.0664

 

四、業(yè)務(wù)實施

數(shù)據(jù)驅(qū)動(Data  Driven)的落地實施過程中,我們與企業(yè)的首要目標(biāo)是明確我們要解決的商業(yè)問題(Business Question)并進一步了解透過數(shù)據(jù)進行分析挖掘解決問題的可能。

我們與企業(yè)合作在設(shè)定商業(yè)問題過程中,發(fā)現(xiàn)企業(yè)對于開始數(shù)據(jù)分析業(yè)務(wù)的商業(yè)問題更多集中在可快速簡單量化成績的銷售業(yè)務(wù)(商品或服務(wù)的銷售成果)與營銷業(yè)務(wù)(促銷活動、廣告投放等),實施全程采取了天氣驅(qū)動業(yè)務(wù)分析框架(Weather Driven Analysis Framework)如圖8。

city38

圖8 天氣驅(qū)動業(yè)務(wù)分析框架

本文探討的酒精性飲料以及羽絨服的商業(yè)問題:銷售預(yù)測以及支持精準(zhǔn)營銷。天氣驅(qū)動項目交付的是(1)可以實時運行可視化銷售預(yù)測模型與(2)持續(xù)的精細化天氣預(yù)測數(shù)據(jù)支持,示意畫面如圖9(因商業(yè)秘密,僅提供系統(tǒng)示意畫面);我們也稱此為天氣驅(qū)動銷售儀表板(Dashboard)�?蛻艚尤胩鞖忸A(yù)測數(shù)據(jù)后、同時將假日、價格、促銷等因子由ERP同步接入,天氣驅(qū)動銷售儀表板實時顯示最新的銷售預(yù)測數(shù)字,輸出內(nèi)容包括:城市、總銷售預(yù)測量、各品牌銷售預(yù)測量、各渠道銷售預(yù)測量以及相關(guān)的天氣數(shù)據(jù)與預(yù)警信息。

city39

圖9 天氣驅(qū)動業(yè)務(wù)銷售預(yù)測示意畫面

由經(jīng)驗判斷開始使用更多的數(shù)據(jù)與采用大數(shù)據(jù)相關(guān)技術(shù)開始數(shù)據(jù)驅(qū)動(Data Driven)經(jīng)營企業(yè),天氣驅(qū)動銷售讓企業(yè)做出下列舉措變化與趨勢:

  1. 企業(yè)的產(chǎn)銷計劃(SOP: Sales & Operation Planning)得到定量的科學(xué)化預(yù)測支持。
  2. 公司經(jīng)營與渠道商開始了解天氣預(yù)報與影響,根據(jù)數(shù)據(jù)進行采購與銷售。
  3. 開始天氣相關(guān)的營銷活動(Campaign)。
  4. 根據(jù)天氣因果性,開始思索如何精確的投放廣告(根據(jù)目前天氣預(yù)報的時長準(zhǔn)確程度,還無法應(yīng)對目前傳統(tǒng)廣告采購規(guī)則,但移動廣告則非常有機會)。
  5. 電商平臺根據(jù)各地天氣變化預(yù)報,調(diào)整推送受天氣驅(qū)動商品。

 

五、總結(jié)討論

本文通過公共數(shù)據(jù)(氣象數(shù)據(jù))結(jié)合行業(yè)數(shù)據(jù)實際探討兩種不同交易形態(tài)的業(yè)務(wù):B2B與B2C,完成通過實際交易數(shù)據(jù)與天氣數(shù)據(jù)分析挖掘相關(guān)性與因果性實現(xiàn)天氣驅(qū)動(Weather Driven)的實踐,促使數(shù)據(jù)驅(qū)動(Data Driven)能夠真實落地協(xié)助行業(yè)在同質(zhì)化非常嚴重的產(chǎn)業(yè)環(huán)境中快速回應(yīng)挑戰(zhàn);但在大環(huán)境下,企業(yè)對于開始數(shù)據(jù)驅(qū)動業(yè)務(wù)管理,總是希望以最低的投入讓現(xiàn)有的資料、數(shù)據(jù)、IT等資源以最低成本、低風(fēng)險又有效的方式完成數(shù)據(jù)驅(qū)動的企業(yè)經(jīng)營,造成執(zhí)行者必須面對以有限資源追求極大化成效的挑戰(zhàn),也造就企業(yè)開始數(shù)據(jù)驅(qū)動業(yè)務(wù)管理變革上的風(fēng)險。

天氣雖然影響眾多行業(yè),但是天氣終究僅是一項影響因子;我們進行天氣驅(qū)動業(yè)務(wù)分析業(yè)務(wù)實踐中,天氣驅(qū)動銷售以快速消費品(FMCG)行業(yè)銷售數(shù)據(jù)+天氣數(shù)據(jù)的效果反饋最佳,主要是因消費者可以用低成本抵抗天氣帶來的影響,本文所提及的酒精性飲料快速消費品的實際案例。其他像是大氣污染預(yù)報、醫(yī)療保�。℉ealthcare)、農(nóng)林漁牧也有相當(dāng)正面的反饋;但是對于需要產(chǎn)品生命周期較長、售價較高、品牌占比較重的行業(yè)或領(lǐng)域則需要更進一步的探討。

在快速消費品的天氣驅(qū)動銷售雖然可以得到很好的效果,又可以細分為不同的區(qū)域(市場),以酒精性飲料為例,在城市G與城市S兩個城市該品牌已經(jīng)非常成熟,最終得到的預(yù)測準(zhǔn)確性也非常高,可是在城市W對該品牌還屬于新興市場(Emerging Market)與天氣的相關(guān)性遠低于該酒精性飲料口碑、品牌認知與當(dāng)?shù)乜谖断埠玫纫蛩氐挠绊憽S鸾q服的數(shù)據(jù)結(jié)果同樣說明了類似的結(jié)論,特別呈現(xiàn)在羽絨服的功能性與服飾特性上,例如在城市Q這樣冬天非常寒冷的區(qū)域就會更重視功能性,而像是城市G地區(qū)消費者更注重的是服『飾』的功能。

從天氣驅(qū)動銷售角度來看數(shù)據(jù)采集:酒精性飲料項目的數(shù)據(jù)來源于ERP以及渠道商的GO-TO-MARKET銷售數(shù)據(jù),有兩項特點:(1)國內(nèi)企業(yè)的ERP系統(tǒng)主要追求的目標(biāo)是財務(wù)記賬導(dǎo)向(以符合會計準(zhǔn)則的記錄為依據(jù)),可信的是交易數(shù)量與金額的正確,但無法記錄真實的交易時間;(2)渠道商的GO-TO-MARKET銷售數(shù)據(jù)受到返利(Rebate)政策影響,所有的交易數(shù)據(jù)都會因不同區(qū)域結(jié)算返利或渠道申報銷售考核的時間點而無法記錄真實的交易時間。這兩項特點發(fā)生在非常多企業(yè)CRM(Customer Relationship Management)、ERP系統(tǒng)上,所以若需要進行天氣驅(qū)動銷售,需要投入更多的精力了解每一筆數(shù)據(jù)與每一個字段的業(yè)務(wù)含義,才有機會真正幫助到企業(yè)開始好的數(shù)據(jù)驅(qū)動管理(理解業(yè)務(wù)才能真正解決商業(yè)問題)。

成功的數(shù)據(jù)驅(qū)動業(yè)務(wù)管理取決于設(shè)定正確的商業(yè)問題(Business Question),通過對行業(yè)的理解不斷地提出可能的假設(shè)(Hypothesis)并使用大數(shù)據(jù)的方法論進行驗證每一項假設(shè),直到可驗證數(shù)據(jù)因果性的階段,并測試成功,才是完整的數(shù)據(jù)驅(qū)動業(yè)務(wù)實踐(Practice)。錯誤的問題會增加企業(yè)在推動數(shù)據(jù)驅(qū)動管理業(yè)務(wù)成本與風(fēng)險,例如我們將商業(yè)問題設(shè)定為酒精性飲料銷售與天氣要素的相關(guān)性,我們很容易得到天氣炎熱酒精性飲料銷售量就會上升的結(jié)論(甚至不用數(shù)據(jù)就可以得到此結(jié)論),但是對于企業(yè)需要的是幫助企業(yè)用數(shù)據(jù)去掌握、洞悉(Insight)、預(yù)測商業(yè)行為,而不是為了大數(shù)據(jù)而大數(shù)據(jù)。

本文主要研究天氣驅(qū)動的銷售預(yù)測,在酒精性飲料銷量和羽絨服銷量兩個領(lǐng)域,利用天氣進行預(yù)測均取得了十分優(yōu)秀的效果。本文仍有很多可以進一步研究的空間;目前,我們研究的時間周期都只有三年,而很多特殊的氣象現(xiàn)象,如厄爾尼諾(El Nino)、激烈天氣等,只有在比較長的時間下才能表現(xiàn)出來,我們會進一步收集更多的數(shù)據(jù)改善我們已有的實踐積累。在我們的數(shù)據(jù)中,特別是酒精性飲料數(shù)據(jù),有很多異常的情況無法用現(xiàn)有的數(shù)據(jù)解釋,需要和行業(yè)進行深入交流才能夠進一步呈現(xiàn)出更好的數(shù)據(jù)驅(qū)動業(yè)務(wù)效果,好的數(shù)據(jù)驅(qū)動業(yè)務(wù)一定是來自于深入行業(yè)了解行業(yè)的努力與積累。

參考文獻

[1] 施瓦茨. 氣候經(jīng)濟學(xué)[M]. 氣象出版社, 2012.

[2] Byunglak Lee, Victor J. Tremblay. Advertising and the U.S. Market Demand for Beer.[J]. Applied Economics, 1992, 24(1):69-76.

[3] Rojas C, Peterson E B. Demand for differentiated products: Price and advertising evidence from the U.S. beer market [J]. International Journal of Industrial Organization, 2008, 26(1):288-307.

[4] Voleti S, Ghosh P. A non-parametric model of residual brand equity in hierarchical branding structures with application to US beer data[J]. Journal of the Royal Statistical Society, 2014, 177(1):135–152.

[5] Empen J, Hamilton S F. How Do SUPERMARKETS RESPOND TO BRAND-LEVEL DEMAND SHOCKS? EVIDENCE FROM THE GERMAN BEER MARKET[J]. American Journal of Agricultural Economics, 2013, 95(5):1223-1229.

[6] 劉一伶, 杜春生, 張輝. 羽絨服銷量預(yù)測模型及其商業(yè)應(yīng)用研究[J]. 現(xiàn)代經(jīng)濟信息, 2012(19):175-176.

[7] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1):5–32.

[8] Fernández-Delgado M, Cernadas E, Barro S, et al. Do we need hundreds of classifiers to solve real world classification problems?[J]. Journal of Machine Learning Research, 2014, 15(1):3133-3181.

來源:統(tǒng)計之都

作者:羅應(yīng)璉(北京維艾思氣象信息科技有限公司),朱珊(中山大學(xué)華南統(tǒng)計科學(xué)研究中心) ,何順(中山大學(xué)華南統(tǒng)計科學(xué)研究中心),周翔(中山大學(xué)華南統(tǒng)計科學(xué)研究中心),李昶(北京維艾思氣象信息科技有限公司) ,王學(xué)欽(中山大學(xué)華南統(tǒng)計科學(xué)研究中心)

鏈接:http://cos.name/2016/05/weather-driven-industry-sales-big-data/