注:近日,九章云極聯(lián)合創(chuàng)始人兼CEO方磊博士在天堂硅谷信息技術(shù)閉門會上做了精彩發(fā)言,以下根據(jù)其講話實錄整理而成。
謝謝大家,要不就先解釋名字是怎么來的吧,主要是當(dāng)時想的《九章算術(shù)》是我們國家第一個講究數(shù)學(xué)或者算法的經(jīng)典著作,所以選了“九章”;然后創(chuàng)立公司的時候,我們覺得云計算是未來,我自己也是在09年最早一批開始做云計算的,所以也取了個“云”字;“極”字其實是取了一個漢字里面的一個很大的數(shù)字,大家知道我們有千、萬、億、兆、京、垓很多單位,“極”就是其中一個單位,是10的48次方,是個很大的數(shù),我們就把“九章云極”串在了一起。
我今天想給大家分享的是數(shù)據(jù)科學(xué)平臺,九章云極從2013年開始我們一直在做這件事,我們叫數(shù)據(jù)科學(xué)平臺,但是很遺憾Gartner對于這個賽道的定義是2017年2月份才出來。所以在那之前,我們到處去跟別人交流,有一點不受待見,別人問你這到底是干嘛的?
我們到底是干什么的呢?這個疑問從我們公司成立伴隨著我們一直到現(xiàn)在,雖然疑問開始變少了,但相對還是挺多的,所以到底什么是數(shù)據(jù)科學(xué)平臺?
我簡單說明一下,我們對數(shù)據(jù)傳統(tǒng)認(rèn)知有三大塊:第一塊我們叫數(shù)據(jù)倉庫,就是把所有數(shù)據(jù)都收集起來,是相對成熟的一個行業(yè),我們?nèi)タ碐artner的象限和報告是很成熟的。第二塊我們叫數(shù)據(jù)治理,這個行業(yè)在中國主要是以咨詢公司為主,來治理數(shù)據(jù),那么在美國也有一些偏AI的公司也進(jìn)入這個領(lǐng)域。剛才高總也提到數(shù)據(jù)庫里1萬張表,可能每個字段都說是客戶,但名字都不一樣,我只能把它拆出來,這些其實也是屬于數(shù)據(jù)治理的一個范疇。
第三塊傳統(tǒng)的叫法是BI,你可以理解成,第一塊是把數(shù)據(jù)存起來,第二塊是弄清楚數(shù)據(jù)在業(yè)務(wù)里的含義到底是什么,比如125是訂單的金額,還是賣掉貨品的數(shù)量。BI這個詞用的非常早,但事實上在過去絕大部分BI就是在做可視化。當(dāng)把數(shù)據(jù)倉庫里的數(shù)字含義弄明白以后,用可視化的方式展現(xiàn)給不同的人,可能是偏業(yè)務(wù)的,也可能是說偏運營的或者是偏領(lǐng)導(dǎo)層的,不同人看到的dashboard是不一樣的。這里面產(chǎn)生了很多特有的市場,在中國大屏就是個很大的市場。因為領(lǐng)導(dǎo)都需要看大屏,或者很多地方都需要有一個讓人參觀的地方,就有很多大屏,這也是BI的范疇。
2017年2月份Gartner加入了第四塊,他們叫作數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)。簡單來說,數(shù)據(jù)的一些value的出口在BI上,主要還是以可視化的方式來展示的,那么在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí),數(shù)據(jù)value的主要體現(xiàn)方式是做模型。大家可以認(rèn)為從傳統(tǒng)的比較簡單的回歸的模型,到稍微經(jīng)典的機(jī)器學(xué)習(xí)的模型,再到比較復(fù)雜的深度學(xué)習(xí)的模型,都屬于這個范疇,所以我們是用模型來體現(xiàn)數(shù)據(jù)的價值,當(dāng)然模型絕大部分時候是來做預(yù)測的。
這跟以前是不一樣的,舉一個非常簡單的例子:一個信用卡中心,有過去的所有的客戶還款記錄,如果你做一個BI的項目,看到的是當(dāng)月有多少還款,還了多少錢,有什么人不還;那么你做一個所謂數(shù)據(jù)科學(xué)的項目,most likely去做一個模型,預(yù)測下個月誰不還款,下個月誰不還款這個模型叫預(yù)測模型。
但是他業(yè)務(wù)價值還不明顯,那么如果體現(xiàn)在業(yè)務(wù)價值上,我有數(shù)據(jù),比如所有還款的記錄,然后我有一些算法,這些算法當(dāng)然可能是各種各樣的算法,然后我有個人叫數(shù)據(jù)科學(xué)家,或者說一個懂一些數(shù)據(jù)的人,那么這個業(yè)務(wù)價值是什么?業(yè)務(wù)價值可能是說,這個模型預(yù)測下個月誰可能不還款,然后這個人如果來申請調(diào)額,我就拒絕他。因為好多人覺得下個月刷爆了,那就再調(diào)一下,再多刷一點,反正下個月還不出來,那么這個月的業(yè)務(wù)上銀行是有事實的錢的損失的,那么業(yè)務(wù)價值就是說,銀行拒絕一些調(diào)額人的請求來減少損失,那他用到的可能就是一個預(yù)測模型,這個算法是在過去的歷史上判斷出每個人的還款概率。
數(shù)據(jù)科學(xué)簡而言之就是說有數(shù)據(jù)了,然后有一個人來做個算法都會對業(yè)務(wù)有個價值,其實我們剛才說了很多事情,前面幾位我覺得大家都說的,可能跟這個是有些重疊的,在這個里面,為了做到剛才說的那些對業(yè)務(wù)的各個場景,我們稱為數(shù)據(jù)應(yīng)用的話,你需要一個相對平臺性的東西,我們就是在做這個平臺性的東西的廠商。
所以看一下歷史是怎么發(fā)展過來的,其實中美有一個很大的差別在于,在數(shù)據(jù)分析這個行業(yè),中文的“分析”這個詞一聽就比較小,當(dāng)然很多投資人一聽做分析,就感覺不太行了,市場不是很大,但是在英文里說“analytics”這是個巨大的行業(yè)。大家中文里說的很大部分所謂AI行業(yè)、人工智能行業(yè),其實都是屬于analytics這里面的,所以整個大的分析行業(yè),如果說用全球的視角來看,其實是很大的一個市場。
那么在最開始的階段我們稱之為semantic data,就是說一些數(shù)據(jù)的基本的匯總,其實到今天為止,這個也做得很差,說老實話,在數(shù)據(jù)中臺可能還要補一些這樣的課,因為有很多數(shù)據(jù)庫里面很多含義對不上,就這一塊階段主要是一些數(shù)據(jù)庫的出現(xiàn)。到了2000年以后,大家慢慢的都有數(shù)據(jù)倉庫了,這個時候就進(jìn)入了我們今天認(rèn)為的BI時代,analytics這些廠商基本上還是圍繞著可視化展示為核心來做,還有一些我們說探索的能力,比如說你可以自由的去發(fā)問,問過去三個月江浙滬什么女性買了傘,一共多少人。它可能不是一個預(yù)先定義好的報表,它可能是一個自由的查詢。到2015年以后,我們進(jìn)入一個增強(qiáng)分析的時代,這個時候其實出現(xiàn)了新的品類叫數(shù)據(jù)科學(xué)平臺,更多的是讓你可以用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的方式開始構(gòu)建模型了,我們進(jìn)入了模型的時代。所以總結(jié)來說,數(shù)據(jù)科學(xué)這個事,就是數(shù)據(jù)的價值的出口主要是以模型的角度來體現(xiàn)的。數(shù)據(jù)科學(xué)平臺最核心的事情是做模型,當(dāng)然這個做模型本身在很多時候還要人做的,我們叫他們數(shù)據(jù)科學(xué)家。
現(xiàn)在我們處在2015后面的增強(qiáng)分析的時代里,我們看一下國際上有哪些廠商,他們都是在不同的年代成立的。我剛才說有些公司成立比較早,比如說Alteryx,它是2009年成立,2017年就上市了,現(xiàn)在大概市值60億到70億之間波動,它是一個典型的數(shù)據(jù)科學(xué)平臺的廠商。同時也有一些別的廠商,比如Dataiku,Datarobot。我舉這三個廠商的例子,它們代表了三種不同的方式,我稱為三劍客,Alteryx成立的比較早,那時候建模的方式主要還是在數(shù)據(jù)準(zhǔn)備上,建模本身是以編碼來實現(xiàn),那么到Dataiku成立的時期,建模更多的時候被我們稱為拖拉拽,現(xiàn)在覺得大家對這個說法都已經(jīng)有點審美疲勞了,就拖拖拽拽,然后就出來一個類似于工作流的東西,然后跑出一個模型來。那么到了Datarobot,它雖然在2013年成立,但真正開始發(fā)力是2016年,拿了AZ16的融資,它主打叫自動機(jī)器學(xué)習(xí)。
所以可以看到其實整個的軸線在數(shù)據(jù)科學(xué)平臺上是圍繞著建模,把建模的壁壘越降越低。編碼建??隙ㄐ枰绦騿T甚至高級程序員;那么到拖拉拽建模,一些我們叫平民數(shù)據(jù)科學(xué)家或者不是那么熟悉編碼的人,而不是一個機(jī)器學(xué)習(xí)專家都可以使用;到了自動建模,偏業(yè)務(wù)的人員都可以使用。技術(shù)的軸線,其實整個所謂的IT業(yè)就是不停的來降低技術(shù)的壁壘。
這三個廠商其實體現(xiàn)了三種不同的建模風(fēng)格,那么今天的趨勢是建模方式都融合了,大家都會去做自動建模,大家都有些拖拉拽這個功能和編碼建模,我們稱為“三位一體”,就是各種建模方式對于不同能力的人都會輸出。然后我們自己吹一下自己,確實九章云極在國內(nèi)是比較早的專注的來做這一塊的公司,我們一開始就給自己定位了,我們的數(shù)據(jù)科學(xué)平臺叫DataCanvas,就是油畫、畫布的意思。
經(jīng)過這么幾年,我們也服務(wù)了一些客戶,我們是比較專注的在提供一個數(shù)據(jù)科學(xué)平臺,讓數(shù)據(jù)科學(xué)家可以在上面去構(gòu)建各種各樣的模型,這樣的模型就是能夠去賦能各種各樣的業(yè)務(wù)場景。那么要一個數(shù)據(jù)科學(xué)平臺,主要干什么事情?數(shù)據(jù)科學(xué)平臺就是建模型的,所以你有一個業(yè)務(wù)場景就來建一個模型。比如說一個保險公司的業(yè)務(wù)場景,車輛發(fā)生剮蹭后車主要去發(fā)一個claim,然后你要上傳一張剮蹭照片,上傳照片以后,其實后面是有一個模型在處理的。因為淘寶上P照片特別便宜,所以保險公司有一個模型判斷一下剮蹭照片是不是被ps過,人肉眼很難分辨,但是用一些比較簡單的深度學(xué)習(xí)的網(wǎng)絡(luò)去訓(xùn)練一下,就很容易的發(fā)現(xiàn)它是不是ps的圖片。這種情況下保險公司的科技團(tuán)隊的人,或者說一個核賠的部門的人,就是做這樣一個事情。
所以說首先它可能得有個人做這個事,其次它有業(yè)務(wù)目標(biāo)——要判斷一個圖片是不是P過——然后把自動模型放到整個業(yè)務(wù)流程里面的某個地方去調(diào)用它。這樣一個過程其實基本上會經(jīng)歷這么幾個階段,首先得有數(shù)據(jù),數(shù)據(jù)有可能需要我們中臺去讀,或者說什么接口,拿這個數(shù)據(jù)來以后,可能有的是有標(biāo)注的,有的是沒有標(biāo)注的,我們要套用一些算法訓(xùn)練它,訓(xùn)練完這個模型,我們會把它上線,上線來調(diào)用它,并且持續(xù)的更新。你可以理解這個數(shù)據(jù)科學(xué)平臺,就是內(nèi)部或者外部的數(shù)據(jù)科學(xué)家用它去構(gòu)建一個個數(shù)據(jù)應(yīng)用,去做一個個數(shù)據(jù)科學(xué)項目。
核心的建模方式其實就那么幾種,我可以共享一個我們自己看到的數(shù)字。在我們云上的測試環(huán)境里面,有很多用戶開了很多賬號,用戶測試的時候很喜歡開個賬號用公開數(shù)據(jù)來試一試。在這些賬戶里面能編碼建模的,就我們看到的3%都不到,所有賬號,你別忘了這些賬號已經(jīng)是有一定的bias,因為他感興趣才來的,不是大街上隨便抓的人。那么能夠拖拉拽建模的人,其實也就5-6%。但是有60%的人能夠完成自動建模,可能沒搞十分清楚,但他們也完成了,所以自動建模對壁壘的降低還是很顯著的。但是真正要實現(xiàn)業(yè)務(wù)價值,其實并不是降低建模難度就可以,待會我會分享一下我們的一些觀點。所以大家可以看到能夠明顯降低壁壘的,就是自動機(jī)器學(xué)習(xí)。
自動機(jī)器學(xué)習(xí)其實還是有很多步驟要去做,因為做一個模型你可能要準(zhǔn)備數(shù)據(jù),那數(shù)據(jù)準(zhǔn)備是不是自動化的,然后你的算法是不是自動化的,算法調(diào)參是不是自動化的,總的來說這里面很多的門類,后面我有一個例子,大家會看到,怎么去做這樣一個事情。自動機(jī)器學(xué)習(xí)像自動駕駛,聽起來很好的,其實沒那么靠譜,如果當(dāng)自動駕駛的這個L1、L2、L3、L4、L5這么來看,我覺得現(xiàn)在有個L2.5也差不多了,可能達(dá)不到那么非常完美的程度,特別是對于一些業(yè)務(wù)高度相關(guān)的一些地方。其實自動機(jī)器學(xué)習(xí)能做的事情,相對比較有限。過去五年是數(shù)據(jù)科學(xué)發(fā)展比較快的五年,我們能看到整個業(yè)界不管是技術(shù)的革新,產(chǎn)品的革新,還有包括我們在內(nèi)的國內(nèi)外的一些廠商,所有事情,核心在于降低壁壘。
做模型上線這個事情,很多人對它的理解可能是比較淺的,比如說我做了個模型,判斷照片是不是P過,假設(shè)這個模型做出來挺準(zhǔn),那就調(diào)用它。但是其實在傳統(tǒng)的企業(yè)架構(gòu)里面,去運行一個學(xué)習(xí)模型這個事是不存在的,因為以前的BI,很多時候它是到了一個大屏幕上去展示,它并不在那持續(xù)的運行,它不是生產(chǎn)環(huán)境的,就是整個持續(xù)運營的生產(chǎn)系統(tǒng)的一部分。交易是每時每刻發(fā)生的,但是你可能1天才跑一個報表。但是如果說這個模型假設(shè)是每秒鐘都有可能APP的請求進(jìn)來,都是去調(diào)動它,所以這個環(huán)境要運行它,那么這個事情按高大上的說法,不是叫做模型生產(chǎn)化,它叫productionize AI,我覺得實際點說,就是說怎么把模型運行起來,所以當(dāng)你做完一個模型運行模型,其實也是IT再往前革新的一個很重要的一個窗口機(jī)會。美國有一些創(chuàng)業(yè)公司,其實都在做這一塊模型生產(chǎn)化的工作,因為你需要一個新的IT架構(gòu)讓它持續(xù)的運行、迭代、上線、下線做這樣一些管理工作,這一塊原來在整個企業(yè)的服務(wù)數(shù)據(jù)架構(gòu)就是不太存在的,所以這是很大的一個需求。
我們看到有些做模型運維的人,現(xiàn)在為什么要模型運維,因為交易系統(tǒng)是有業(yè)務(wù)運行,它不能壞。其實這個模型一直在被運行,一直在被調(diào)用,模型也有需求。做數(shù)據(jù)科學(xué)最可怕的事情,他需要是個雜家,我們公司現(xiàn)在有人來面試完,第二天卻不想來了,他覺得要學(xué)的東西太多,壓力太大了。因為你要懂一些數(shù)據(jù)的事,然后也希望懂一些機(jī)器學(xué)習(xí),甚至你在業(yè)務(wù)上也會溝通,有的人技術(shù)很好,他很不愿意去理解業(yè)務(wù)的一些問題,但他也很難在這里去做一些深入的工作,所以你也可能是會一些編碼,同時還懂一些分析的概念。比如當(dāng)你發(fā)現(xiàn)這個數(shù)據(jù)大量是缺失的,missing value很高,那么數(shù)據(jù)都這么少,你怎么去補充一些數(shù)據(jù)。有的時候你也沒辦法,你也不可能退回去讓業(yè)務(wù)重新給你更多的數(shù)據(jù),因為歷史上積累的就那么些數(shù)據(jù)。所以對整體而言,我覺得我們產(chǎn)品大幅降低了這些各個崗位的人的要求,降低了對數(shù)據(jù)科學(xué)的要求和依賴。
舉個簡單的例子,是一個城市商業(yè)銀行簡單的客戶流失預(yù)警??蛻袅魇О凑兆詈唵蔚亩x,就是三個月內(nèi)整體資產(chǎn)下降超過60%。整體資產(chǎn)包括他的理財、存款、一些信貸產(chǎn)品等等。這個銀行如果做一個預(yù)警的話,利用自動機(jī)器學(xué)習(xí),在這個案例里幾百個變量幾十萬條原始記錄,很快就做完了,所以看到自動機(jī)器學(xué)習(xí)確實讓一個偏業(yè)務(wù)的人,能夠很快去構(gòu)建這個模型,甚至都不再去需要立項,去重新經(jīng)過一個很復(fù)雜的采購流程,不然可能也得花個幾十萬。他能做出來模型,這是個非常重要的,然后下一步是怎么去用它,怎么看效果,其實也是個挺復(fù)雜的過程,但不管怎么樣,它把第一步已經(jīng)大大的簡化。
這個例子大家可以想象一下,剛剛說了要有數(shù)據(jù),就是以前所有歷史上流失的客戶,那么這個案例非常簡單的原因在什么?大家能看出來,它的歷史數(shù)據(jù)都是有標(biāo)注的,因為歷史數(shù)據(jù)已經(jīng)告訴你誰流失了,所以他的標(biāo)注是非常簡單的。其次它的定義也非常明確,就是三個月從開頭到最后的余額一減,超過60%,就標(biāo)注了,所以你訓(xùn)練它也很簡單,然后經(jīng)過去驗證,其實準(zhǔn)確率是相對比較高。以往銀行做完這個流失模型以后,他們會用推薦理財來挽救,比如現(xiàn)在余額是五六萬,預(yù)測要流失了,銀行給他推個7萬起的理財產(chǎn)品,讓他再轉(zhuǎn)一點進(jìn)來,這個叫拉新,做業(yè)務(wù)人都知道,讓他能多投一點錢進(jìn)來。有意思的是,這個模型用的好好的,然后遇到P2P瘋狂爆雷了,P2P一爆雷不保底了,所有人都在去銀行排隊買大額存單了,所以根本就不需要推薦理財,因此流失預(yù)警模型在那個時期也用不到了。你就發(fā)現(xiàn)模型是高度依賴于業(yè)務(wù)的。
大家可以看到,原來很多時候,我們?nèi)绻f去看一個軟件或者一個可視化東西,很多時候不是運營驅(qū)動的,而是管理驅(qū)動的,包括監(jiān)管報送,比如在銀行里做的比較完善的監(jiān)管報送的報表,它其實也是管理驅(qū)動的。但是其實像數(shù)據(jù)科學(xué)的一些項目,很多是運營驅(qū)動,運營驅(qū)動的特點就是說它多變,經(jīng)常會調(diào)整,所以對一些客戶來說,他為什么需要一個數(shù)據(jù)科學(xué)平臺,也是有這個原因。
這個在金融行業(yè)比較明確的例子,其實我們看到了,它是利用平臺降低了壁壘,這個平臺就是讓數(shù)據(jù)科學(xué)家或者說我們叫水平基礎(chǔ)的數(shù)據(jù)科學(xué)家,我們叫60分的人,90分的人都能夠更快速低門檻、高效率來構(gòu)建模型。
今天的主題,一定要說從技術(shù)到場景,那么在數(shù)據(jù)科學(xué),我覺得新技術(shù)出現(xiàn)的特征,第一個就是對非結(jié)構(gòu)化的處理能力,這是很顯然的,其實非結(jié)構(gòu)化處理的能力在保險行業(yè)的應(yīng)用是非常廣的,不論是從保單還是到核賠的過程,其實我感覺比銀行還要廣。
因為銀行的好多數(shù)據(jù)是高度結(jié)構(gòu)化,相反保險數(shù)據(jù)的結(jié)構(gòu)化程度要差一些的,所以非結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)了,技術(shù)對于這些場景都產(chǎn)生了巨大的變化。如果說哪個技術(shù)出現(xiàn)導(dǎo)致了一個巨大的場景,不知道大家直覺感覺是什么?我再舉個例子,這個例子體現(xiàn)了一個微小的技術(shù)進(jìn)展帶來了巨大場景變化,這個就是PageRank。我們知道informationretrieval這門學(xué)問教書教了30年了,但搜索引擎并沒有出現(xiàn),因為在谷歌發(fā)明PageRank之前,對于全文檢索這么一門放在圖書館系里教的課,最高級的算法叫BM25,如果學(xué)過的大家都知道,文章稍微長一點或者文章稍微多一點,使用就非常困難,但google發(fā)明了PageRank這么一個算法,讓全網(wǎng)的搜索引擎,立馬成為了現(xiàn)實。
這是個簡化的說法,但毋庸置疑PageRank的一個算法,我覺得其實這個技術(shù)核心讓我們搜索引擎這個時代成為可能,所以有的時候,技術(shù)上一個比較看起來感覺不那么大的事,最后是能長個蒼天大樹的。說回來,剛剛說的結(jié)構(gòu)化,結(jié)構(gòu)化的處理能力,這些深度學(xué)習(xí)的算法就帶來新的一些機(jī)會,還有一個就是實時的事情,做數(shù)據(jù)的人,基本上說大家腦子里下意識還是跑批一些概念,實時這一塊是非常弱的。
實時能力的進(jìn)展,主要是流數(shù)據(jù)、內(nèi)存數(shù)據(jù)庫這樣一些技術(shù)的進(jìn)展,讓一些非常實時的反欺詐、資金異動,甚至說反洗錢都成為可能。這個也是一個技術(shù)進(jìn)展帶來的。然后下面包括還有算法門檻的降低,還有說數(shù)據(jù)量的一些情況,我就不一一贅述了,我先說兩個具體的例子,大家也能感覺到一些技術(shù)進(jìn)步對一些具體場景的影響。
先說一個IOT的場景,其實這個里面剛才從上午的華為云一直到后來可能明略這邊都提到了IOT。我說的是非常實際的場景,就在一個油田里,大概有4萬口井,每口井都有很多傳感器,把數(shù)據(jù)收回來,收回來之后,他們?yōu)榱送瓿蔁o人值守這么一個業(yè)務(wù)目標(biāo),需要構(gòu)建一些時序異常的模型檢測。我給大家看一下,時序異常檢測其實是一個非常廣的模型,那么在這個里面會做很多事情,像數(shù)字信號處理,這一塊基本上在端上完成了,因為有大量的振動,還有很多壓力的東西在線上,所以那些東西會導(dǎo)致你的數(shù)據(jù)有很多漂移,所以有些算法在端上會計算,提取完了信號以后,再發(fā)回云上或者端上的時候是比較干凈的,這個時候,后臺會跑一個我們產(chǎn)品跑出來的模型。這個時序數(shù)據(jù)很有特點,一列是時間,一列是值,這條曲線是隨著時間變化的一條曲線,那么在這個曲線上面,你想通過一些訓(xùn)練數(shù)據(jù),來非監(jiān)督學(xué)習(xí)或者有監(jiān)督的學(xué)習(xí),人工標(biāo)注的,來判斷哪些是異常,有的你不用標(biāo)注也能判斷出異常。在這個里面你可以通過一些算法,被監(jiān)督的算法、深度學(xué)習(xí)的算法或者有監(jiān)督學(xué)習(xí)的一些算法來訓(xùn)練它,訓(xùn)練完之后就會產(chǎn)生一個模型,這個模型在平臺中訓(xùn)練的過程中,它會使用一些資源,訓(xùn)練出來這個模型會幫你在里面去預(yù)測到一些異常的點。可以看到我們自動機(jī)器學(xué)習(xí)對于時序異常檢測這一塊,其實做的還相對比較易用的,對于一個不是特別懂機(jī)器學(xué)習(xí)的人可以很容易地把這個模型構(gòu)建出來。你可以看出來在構(gòu)建的過程當(dāng)中,他就會開始對一些形勢預(yù)測,通過比如說上面的可能用的是算法A,下面的是算法B,他們發(fā)現(xiàn)了異常點不完全一致,那他可能還要做多種算法的自動組合,組合完了以后,能看到哪些點是異常的點。
剛剛提到有些是無監(jiān)督的,有些是有監(jiān)督,總而言之,就是把這些異常點都發(fā)現(xiàn)出來。在技術(shù)層面看是一個深度學(xué)習(xí),那就是無監(jiān)督學(xué)習(xí)、有監(jiān)督的一個組合,讓你判斷一個實際數(shù)據(jù)的異常點,這是對一個技術(shù)人員的話,然后對一個經(jīng)理的話,就是說AI落地的場景,能判斷異常的工作狀態(tài),那么對領(lǐng)導(dǎo)層的話叫無人值守,就是將來五年、十年的一個大的方向,因為每秒鐘那么多數(shù)據(jù),數(shù)據(jù)收回來了以后,你總得有個人看,但你不能派那么多人去看它。
另一個例子,我想說的是將來五年的一個事情,剛才說的都是降低壁壘、降低門檻,你就很容易把模型做出來。將來其實一個更大的挑戰(zhàn)在于說怎么把行業(yè)知識融合進(jìn)去,就是knowhow,其實門檻降到足夠低,有數(shù)據(jù)還是不一定能把模型做好。我說一個信貸風(fēng)控的模型的例子,在這個模型里面對于小微風(fēng)控來說,其實是用各種維度的數(shù)據(jù)來判斷這個人貸款或償貸的風(fēng)險變化,比如法院判決他欠了100萬,這個數(shù)據(jù)進(jìn)來以后,它的風(fēng)險立馬就變了,所以有很多外部數(shù)據(jù)。
那么這是一個銀行用的一個風(fēng)險模型,它有這么幾個維度,一共是2400個特征,這2400個特征之上,它構(gòu)建了這個模型。我給大家舉一個例子,就是大家想象的機(jī)器學(xué)習(xí)比較簡單,比如說內(nèi)部數(shù)據(jù),頭70個特征可能一般長成這樣,是內(nèi)部數(shù)據(jù),那么假設(shè)外部數(shù)據(jù)、工商數(shù)據(jù)82個特征可能長成這樣,大家覺得這2000多個特征放進(jìn)去,經(jīng)過升維、降維,最后這個模型應(yīng)該很棒,其實不是這樣的,做完之后你會發(fā)現(xiàn)效果真的不太行,所以原因是什么?對于一個高度專業(yè)性的場景,其實你是需要很多行業(yè)知識,比如對于一個企業(yè)來說,可能就是隱形負(fù)債的風(fēng)險,第一個就是銀行間往來流水大額資金的民間借貸,像這種東西每個信貸員都知道,但我們機(jī)器學(xué)習(xí)模型是很難捕捉的。
所以你要把這些東西加工成增強(qiáng)的特征,它放到你的模型里去才能做得很好,所以這里很依賴于一個優(yōu)秀的數(shù)據(jù)科學(xué)家,這個人不一定是我們公司提供的,但是我們的產(chǎn)品會提供一些方式,它來構(gòu)建一些特征庫或者一些衍生的方式。這些很多都是我們業(yè)務(wù)知識knowhow,能大大提升模型的質(zhì)量。
所以總結(jié)來說,數(shù)據(jù)科學(xué)平臺就是拿著這些算法,有個人降低門檻解決業(yè)務(wù)問題,將來發(fā)展趨勢可能不只是降低門檻,降低門檻做得還可以了,但是把行業(yè)知識怎么結(jié)合進(jìn)去,這是一個很大的挑戰(zhàn),所以我們的產(chǎn)品DataCanvas,就是要引領(lǐng)的這個事情,我們四個倉庫就是特征倉庫、模型倉庫、模板倉庫,還有一個自動機(jī)器學(xué)習(xí)的倉庫,利用這些方式來解決一些知識融合的問題。知識融合是一個非常重要的點,以后能夠極大的決定這個業(yè)務(wù)之后的成敗。
所以最后小結(jié)一下,到底技術(shù)帶來一些什么樣的新的涵義,第一個就是說降低門檻以后,會帶來很多標(biāo)準(zhǔn)化的數(shù)據(jù)產(chǎn)品,第二個如果真的能夠把知識融合做好,可能會帶來一個很強(qiáng)的積累效應(yīng),就A用的模型很快能放到B上去,第三個如果對一些再新的技術(shù),有可能會帶來一些網(wǎng)絡(luò)效應(yīng),今天因為時間不太多,我就不贅述了,大家有問題就問我或者咱們接下來交流。