保繼剛:應用大數(shù)據(jù)進行國內(nèi)旅游統(tǒng)計的思考及操作
一、將尺度觀引入旅游統(tǒng)計思考
對于研究者來講,得到好的數(shù)據(jù)我們能得出正確的結(jié)論,如果研究者得到錯誤的數(shù)據(jù)我們會得到精確的錯誤結(jié)論,因為我們的模型是精確的。很感謝這些年我的團隊和學術界的研究中有一些很精確的數(shù)據(jù),這里特別表揚一下黃山,黃山每年公布的數(shù)據(jù)沒有水份并且都是買票的數(shù)據(jù),不累加別的數(shù)據(jù),實事求是有多少就是多少,所以要為他們點贊。
只要是賣門票的地方給的數(shù)據(jù)都是準確的,因為門票的收入做不了假。城市旅游數(shù)據(jù)比較麻煩,國家公布的數(shù)據(jù)和每個省公布的數(shù)據(jù)的累加一直是不可比的,有人會說我們國家公布的數(shù)據(jù)是通過抽樣調(diào)查的出行數(shù)據(jù),各個省的數(shù)據(jù)是各個省的接待數(shù)據(jù),但是問題是沒有人說明他們兩個為什么不可比,或者說我們很少會知道數(shù)據(jù)是怎么來的。
2019年文旅部公布的國內(nèi)游客是60億人次,31個省市自治區(qū)加起來是170億人次,特別是2022年,因為疫情三年本是一個最好的擠水份的機會, 可2022年文旅部公布的數(shù)據(jù)是25.30億人次,全國加起來是97億人次,倍數(shù)還增加了,全國加起來的數(shù)據(jù)是國家公布的3.8倍。
我用幾個極端的例子給大家展示一下這些數(shù)據(jù),廣東省、貴州省、云南省。原來云南的數(shù)字還少一些,這兩年已經(jīng)遠遠超過貴州和很多地方。廣東省2018年是4.53億人次,2019年是4.94億人次,2021年是2.54億人次,2022年2.01億。貴州2018年9.67億人次、2019年11.34億人次,2019年是全國第一,旅游收入是1.1萬億;2021年6.44億人次,2022年降到4.92億人次。云南省2021年開始超過貴州,達6.49億人次,2022年超過了更多,高達8.41億人次。貴州和云南都超過廣東很多。
這幾組的數(shù)據(jù)矛盾特別大,廣東1.2億常住人口,經(jīng)濟全國第一,消費全國第一,酒店量全國第一,機場吞吐量廣州機場是全國三大機場之一,深圳機場全國五大機場之一。廣東省國內(nèi)游客量比云貴這兩個省的數(shù)字小很多,與我們的常識不符。廣州機場吞吐量在2019年是7300多萬人次,深圳大約5300萬人次,昆明4800萬人次,貴陽約2200萬人次。
2019年國內(nèi)旅游數(shù)據(jù)廣州公布是5800萬人次,昆明1.8億人次,貴陽2.2億人次。一個城市超過2億人次游客是一個天文數(shù)字,這是一個違反常識的問題。
為什么會出現(xiàn)這樣的問題?按照國家公布的統(tǒng)計方法,肯定不會出現(xiàn)這么大的數(shù)字,但是在實際操作的時候不是這樣統(tǒng)計的,比如說一個省的數(shù)據(jù)可以是以縣為單位的,一個縣報給地級市,地級市報給省,進行累加。
還有以縣或者地級市為單位的數(shù)據(jù)又是怎么得到的,有的可能是按照景區(qū)(景點)的數(shù)據(jù),所以你們?nèi)シ治鋈珖鱾€大城市的旅游數(shù)據(jù),收門票景點越多的城市數(shù)據(jù)量就會越好,如果說這個城市有20個收門票的地方,每個游客平均去了8-10個,一個游客就會被算了10次。晚上住酒店再算一次,旅行社接待算一次,一個游客就會被計算超過10次,我所研究過的以旅游為主的目的地,大概10倍是起步,10多年前大概是5-6倍,現(xiàn)在大概是10倍以上。沒有極限的增長,一直不敢把增長速度放下來,我們的增長速度大概每年是8%-10%,一般不會低于8%。到最后本來是5、6倍的,就整成七八倍十幾倍都有了,這就是過去的數(shù)字。
前兩年又有一個省說我們是用大數(shù)據(jù),使用大數(shù)據(jù)以后,如果是完全的沒有處理過的原始數(shù)據(jù),比如說現(xiàn)在三大運營商的手機用戶是17億多,就可能會有一個人用兩個號,有路過的,有異地手機本地使用的,有汽車自動收費卡的等,都可以被計算在內(nèi)。在沒有對這些數(shù)據(jù)清洗情況下,大數(shù)據(jù)也會夸大實際情況。同時,大數(shù)據(jù)統(tǒng)計的是人天數(shù)不是人次數(shù),因為大數(shù)據(jù)每天都會被統(tǒng)計到,每天統(tǒng)計累加起來就是人天數(shù),一個人住了三天的信號被捕捉到就成了三個人次,這就是我們現(xiàn)在可能出現(xiàn)的問題。
中國的旅游經(jīng)濟在全世界相比也是高的超出旅游經(jīng)濟常識,西部某省一萬多億的旅游收入,省委書記省內(nèi)開會問一萬多億的旅游收入,這么多錢哪兒去了。相關部門回答,藏富于民。如果說某省一萬多億旅游收入按照3900萬人口,人均旅游經(jīng)濟收入是2.4萬元,從旅游目的地視角來看這個數(shù)字非常高。但是事實不是這樣的,因為這一萬多億是按游客平均消費計算出來的。首先是進行游客抽樣,多數(shù)是對異地游、跨省游的游客抽樣。比如抽樣的游客人均消費是1000元,但是假如游客被統(tǒng)計了10次,就是10000元,實際只消費了1000元。
這就是為何現(xiàn)在旅游收入數(shù)據(jù)也特別高,跟我們的常識又不符,才一萬多億的GDP有一萬多億的旅游收入,盡管這兩個一個是增加值,一個是總收入不可比,但是我們可以類比一下這樣的占比,實際上是不可能的。
今天的旅游統(tǒng)計跟現(xiàn)實之間的矛盾已經(jīng)越來越大,按照原國家旅游局的界定,現(xiàn)在執(zhí)行的統(tǒng)計定義,10公里6小時離開家就算做游客,實際上特別難操作。北京這樣的大城市,上班超過10公里太多了,離家上班就超過6小時,城市旅游的天文數(shù)字,這是其中一部分原因。
世界旅游組織也好,我們國家的定義也好,在現(xiàn)實中難以操作。這涉及多地理尺度的轉(zhuǎn)換,到底我們是用地理距離來算10公里,還是用行政邊界來算。西方國家也有用80公里,4小時的,但都難于操作。所以我提出如果用行政邊界來計算,與稅收單元相匹配,有可能解決這個問題。如果把流動的廣義消費作為一種旅游消費的話,再想辦法剔除那些非旅游消費的部分。我們的稅收行政范圍是以縣為單元,只要進入到這個行政區(qū)劃范圍,消費就進入了這里的稅收體系里,如果在兩個稅收單元的邊界,不需要10公里就已經(jīng)跨界,跨界的消費稅收已計算到另外一個行政區(qū)域。從這個意義上講,再用10公里這個空間標準不合適了。
從理論上推導一下,為什么各個省的累加會超過全國,各個地級市的累加會超過一個省,各個縣級市的累加是更大的數(shù)據(jù)。國家對旅游人次的定義是指離開居住地出去旅行后回居住地算一個人次,也就是說一個北京人從北京到廣州可能經(jīng)過了河北、河南、武漢、湖南進入廣東,如果在每個地方都停留了一下,每個省都會把你算做一次游客,但是對于國家統(tǒng)計來講只算一次,從居住地離開轉(zhuǎn)一圈回到居住地算一人次,這樣的話地理尺度就特別重要了。
我們以省級為單位做一個理論推算,如果假設全中國所有人每年到其它30個省市都去一次,全中國會有多少個旅游人次呢,390億。2016年全國334個地級單位,最極端的情況每個人把其他333個跑一遍,理論值會達到4329億的旅游者。這樣一個推導就說明行政尺度越小的統(tǒng)計單位,累加起來的數(shù)據(jù)就會越大。現(xiàn)在公布的數(shù)據(jù),并不公布某個省游客里的外省游客有多少(外省游客不能是地級市的游客量相加),本省游客多少(本省游客還應該公布跨地級市的多少等)。我們用一個概念含混不清的大到違法常識的數(shù)據(jù)把真實情況掩蓋了。
從理論推算來講,尺度越小的統(tǒng)計,累加數(shù)據(jù)會越大。這幾年我們團隊一直從實踐的角度來嘗試游客統(tǒng)計的實際操作性的問題。我們先不討論國際上和國內(nèi)的定義要怎么修改,那是一個非常復雜的事情。我們以省、市、縣為三級統(tǒng)計地理單元,比如說廣東省可以首先公布每年廣東省外的其它30個省市自治區(qū)的國內(nèi)游客有多少,如北京有多少,上海有多少,天津有多少。廣東省內(nèi)21個地級市,比如廣州市可以再公布一個數(shù),另外20個地級市有多少游客到了廣州,如果重點旅游縣特別有必要,還可以再看看地級市內(nèi)其它縣市區(qū)到有多少游客,可以分層次來進行公布,這樣的話這些數(shù)據(jù)就可比。首先比外省,能吸引外省的人有多少,省內(nèi)再比地級市。這是今天講的第一個方面部分,按地理尺度有可能從操作性上解決現(xiàn)在的游客統(tǒng)計“橫向不可比,縱向不可加”問題。
二、大數(shù)據(jù)游客量統(tǒng)計及消費統(tǒng)計實驗
第二個方面,我們現(xiàn)在特別關注消費,5月17日習總書記在全國旅游工作會議上的重要指示講旅游已經(jīng)成為新時期的戰(zhàn)略性支柱產(chǎn)業(yè)。投資、出口、消費推動經(jīng)濟發(fā)展的三駕馬車,消費越來越重要,其中旅游消費在消費中又特別重要。因此,非常有必要弄清楚旅游消費是什么樣的。
過去是靠抽樣,抽樣大家知道會有很多問題。目前全國游客抽樣一年8萬份,四個季度每個季度2萬份,城市1萬份,農(nóng)村1萬份。全國城市選了30個市,30個市里省會城市都沒有完全覆蓋,只覆蓋了4個直轄市,5個副省級市像廈門、深圳、蘇州、寧波、大連,和21個省會城市,抽樣的城市都是經(jīng)濟比較發(fā)達的城市,是中國經(jīng)濟最好的地方,這樣推論出來的數(shù)據(jù)可能會偏高。農(nóng)村是1萬份,總量上太小,這就是傳統(tǒng)抽樣可能會出現(xiàn)的問題。
現(xiàn)在有機會使用大數(shù)據(jù),中國去實體貨幣化的速度遠遠快于整個世界,已經(jīng)快到讓外國人到中國適應不了我們的支付方式。我們農(nóng)村老太太賣菜都是微信支付,只要我們是微信支付、支付寶支付,用的是公司注冊的收費程序,除了用微信(支付寶)零錢不通過銀聯(lián)系統(tǒng)統(tǒng)計不了外,銀聯(lián)數(shù)據(jù)里都會包含所有的消費,這樣就有可能整合信令數(shù)據(jù)和銀聯(lián)數(shù)據(jù)來研究旅游經(jīng)濟。
我們現(xiàn)在的三大運營商有17.1億用戶,移動占57.6%,中國電信23%,聯(lián)通將近19%,有一些地方可能會用其中一個運營商的數(shù)據(jù)來做研究和分析,這還是大樣本抽樣,如果只用聯(lián)通,全國的用戶不到19%,其結(jié)果是19%的抽樣結(jié)果而不是全部用戶的結(jié)果。
雙卡雙待、兩部手機、異地手機本地使用、高速公路(鐵路)路過、日常活動跨越邊界居民等都會夸大游客量,需要通過編寫專門的算法進行清洗。
信令數(shù)據(jù)可以計算游客量,可以知道游客的軌跡,銀聯(lián)數(shù)據(jù)可以分析游客的消費,結(jié)合起來可以給游客年齡、性別、來源、游覽行為、消費狀況等進行畫像。消費層次的分析,可以分析出什么地方的游客消費高,什么地方的游客消費低,還可以把在旅游六要素的消費分開,什么地方消費、人均消費、消費喜好、消費趨勢這些可以做出來。
我們組合了一個多學科的團隊,對廣西做了一個大數(shù)據(jù)支撐廣西旅游數(shù)字營銷識別和決策的項目,依據(jù)的就是信令數(shù)據(jù)、銀聯(lián)的消費數(shù)據(jù)和OTA的評論數(shù)據(jù)。
我們看看實際結(jié)果,2019-2023年廣西客源地的空間分布,廣東一般來說占廣西外省游客的40%多,常年基本上最主力的客源是廣東,然后是貴州、湖南、云南、河南、四川、浙江、江蘇以及其它地市省份。
廣東游客在廣西的空間分布,南寧是第一,玉林第二,然后是貴港、梧州、桂林、賀州、青州,大家可能會看到南寧、玉林、貴港、梧州超過桂林,南寧是省會城市很容易理解,玉林曬在廣東打工的人多,貴港和梧州是靠近廣東。
再有一個有意思的數(shù)據(jù)是廣東游客在廣西14個地級市里的消費,桂林排到第一,玉林排到第三,玉林很多是返鄉(xiāng)打工人員,這樣一看就知道桂林超過了南寧、玉林、梧州,所以廣東游客在廣西14個地級市的消費,桂林是非常重要的。
我們再分成六要素吃住行游娛購,在桂林住、行還有購物是占了大頭,吃占的不多,在貴港吃占的比較多,梧州吃占的比較多,梧州跟廣東交界,很多廣東人會跑到梧州吃飯。
用OTA的數(shù)據(jù)來看桂林、陽朔整體的評價,對哪些地方感興趣,哪些地方不感興趣,還有在桂林內(nèi)部是怎么旅游的,從這個點到那個點是什么樣的流量和流向關系,這個是用OTA數(shù)據(jù)得出的游客評價、產(chǎn)品偏好和流動軌跡。引入大數(shù)據(jù)之后,有很多問題理論上首先要理清,然后技術上做出來。
三、引入大數(shù)據(jù)技術后旅游人數(shù)統(tǒng)計存在的問題及原因
第一個問題還是縱向不可加,橫向不可比的問題始終存在。大數(shù)據(jù)統(tǒng)計方面的旅游統(tǒng)計工作目前還是屬于補充手段,因為國家還沒有出臺相應的文件和規(guī)范,特別是如何對大數(shù)據(jù)進行清洗。
我們看一個之前做的實驗,這是2019年國慶期間做的一個實驗,如果不篩選、不清洗這些重復的游客,廣西得到的總?cè)藬?shù)是3586.63萬人/天,把這些重復的清洗掉之后,清洗了1029萬人/天,重復的、過路的等等占到了40%。不清洗的人天數(shù)和官方公布的人天數(shù)是比較相近的,沒有清洗是3500萬,官方公布是3300萬,但是我們那個是人天,官方公布的是人次。
清洗里面占比最多的是地理尺度的變化,以外省游客為例,按照14個地級市計算累加以及只要進入廣西才計算,相差了307萬,占總清洗量的54%;漫游常住用戶,占了30%(169萬),過路客占了65萬占11.6%,雙卡雙待智能終端占3.1%(17萬),這些誤差是非常大的。
玉林超過了桂林是因為,玉林是廣西在廣東打工最多的地級市,每年節(jié)假日大量的玉林人會返鄉(xiāng)探親,這部分的計算結(jié)果是,玉林從自治區(qū)之外回去的35萬多,桂林是9萬多,南寧是4萬多,所以這樣一算扣除返鄉(xiāng)的玉林的游客人數(shù)就比不上桂林,當時我們得到初始數(shù)據(jù)覺得很奇怪,玉林已經(jīng)超過桂林了,把這個數(shù)據(jù)一分析,就知道桂林實際上真正的游客要多,但是作為官方公布數(shù)據(jù)來講,返鄉(xiāng)的也算游客,只不過回到家沒有多少消費,這些是我們實驗的結(jié)果。
現(xiàn)在需要討論的東西很多,比如說慣常環(huán)境怎么定義,10公里6小時是否繼續(xù)使用,城市越擴越大的情況下,跨區(qū)縣的流動并不全是旅游活動,區(qū)縣一級的慣常環(huán)境怎么識別,游客在不同地理尺度下如何界定,省級、地級市、縣級市是不是跨省也要6小時還是什么,原來的定義是不是要更改,下一步需要好好研討,最后才能得出規(guī)范。
如果從大數(shù)據(jù)的角度,只要這些定義說的很清楚,技術是可以做到的。我們團隊在做進一步的工作,比如說電子圍欄的實驗,比如說技術規(guī)范,我們自己在摸索,所有這些問題都有可能解決,但是一定是文旅部、國家統(tǒng)計局這個層面上來協(xié)調(diào),下面我們來做技術是有可能做到的。