先走後跑:為什麼數據治理最佳實踐對高級建模至關重要

已發表: 2021-10-15

在營銷領域,從失敗的分析角度來看,數據治理永遠不是重點。 作為 Wpromote 的數字分析總監,我知道乾淨和一致的數據對於高級模型和預測營銷高管所鍾愛的重要性,但我也親眼目睹了在使這些模型發揮作用的基礎數據上花費時間和精力的阻力。

可以理解,高管們對閃亮的新工具及其潛在的投資回報率感到更加興奮。 但是,如果您繞過始終如一地標記、管理和更新數據的基本步驟,您的企業可能會浪費數百小時,並在永遠無法工作的模型上損失數百萬美元。

嚴重地。 百萬。

垃圾進,垃圾出:為什麼糟糕的數據治理會使您的高級數據建模結果一團糟

因此,讓我們把壞消息排除在外:如果您的品牌是全新的、開箱即用的、先進的營銷模式是建立在不良數據之上的……那就是垃圾。

如果你幸運的話,它可能會工作一段時間,但你永遠無法讓它長期工作。 因為它是根據錯誤的輸入構建和訓練的。 人們試圖“修復”損壞模型的方式往往是構建更複雜的東西。 如果你還沒有修復數據中的初始缺陷,它仍然是壞的。

基於不良數據治理的高級模型

把它想像成一座摩天大樓:每個人都為之興奮的酷炫迷人的塔樓部分是你的高級模型。 但是,如果您的塔樓建在糟糕或有缺陷的地基上,您將遇到一些重大問題(只需詢問 432 Park Ave 的居民即可)。

高級數據模型支持基於有缺陷的數據的不良模型。

建造一堆錯綜複雜的腳手架來支撐你的塔,而不解決基礎上的問題可能會讓事情在一段時間內變得更好,但這並沒有解決根本問題。 如果它所建立的數據仍然很糟糕,那麼您的漂亮模型最終可能會走上倫敦橋的道路。

全部倒下:偏差-方差權衡和其他不良數據治理的故事

以模型為中心(而不是數據優先)的高級數據分析方法的吸引力是不容忽視的。 但像 Andrew Ng 這樣的領域先驅專家正在推動數據科學家抵制建立花哨模型以適應混亂數據的吸引力。 任何使用統計建模的分析師的一個主要考慮因素是偏差-方差權衡。

與偏差-方差權衡相關的兩個主要錯誤:
過擬合:高方差,低偏差

您的模型非常敏感,最終會專注於隨機噪聲。 由於模型能夠產生與特定數據集相對應的可靠見解,因此並不總是很明顯出現問題,但它們不能準確地應用於未來的學習或其他數據集。

欠擬合:低方差,高偏差

當您的數據沒有足夠的信號時,您的模型會錯過數據中的相關模式,從而無法準確預測結果。

如果您依賴高級數據建模,則需要雇用具有罕見才能的人。 但是,如果採用以數據為中心的方法,您實際上可能不需要將數字營銷專業知識與統計建模和計算機科學技能相結合的獨角獸僱傭。

使用更好的數據意味著傳統的、不太複雜的機器學習模型可能會解決您的問題,這意味著您不一定需要經驗豐富的數據科學家來完成這項工作。 相反,數據分析師可以從這些更簡單的模型中提取有價值的見解,同時在(相對)乾淨的環境中學習數據科學的具體細節。

“當系統表現不佳時,許多團隊會本能地嘗試改進代碼。 但對於許多實際應用來說,專注於改進數據會更有效。”

吳恩達| 落地AI創始人兼CEO

但這不是您應該重新考慮的策略的唯一部分。 將神經網絡等高級模型用於高偏差問題的組織應該停止並評估他們的方法。 他們有在傷口上使用一些非常昂貴的創可貼的危險,如果不回到最開始就永遠無法癒合:數據。

而這一切都是可以預防的。

這就是為什麼每個使用我們在 Polaris 中的高速混合媒體模型 Growth Planner 的客戶都與我們的數據治理產品緊密結合的原因。 這不是因為我們刻薄,而是因為我們知道,如果增長規劃器(或任何與此相關的模型)基於不良數據,它將無法工作。 這就是我們如何知道來自 Growth Planner 的見解是準確的、可操作的並推動實際價值的。 我們實踐我們所宣揚的。

更高的價值,更低的成本:將 80/20 原則應用於數據分析

數據科學界有一句老生常談:80% 的時間和精力應該花在清理數據和 20% 的建模上。

那些古語有什麼用? 他們往往是真的。

通過建立成熟的數據治理最佳實踐,您的數據科學家可以構建有效的高級模型,並提供推動業務增長的寶貴見解。

企業可以通過跨越他們的 t 並在他們的 i 點上使用數據治理來節省數百萬美元,從而確保您的高級分析的基礎是健全的,因為它建立在正確的分類法之上,它是乾淨的,而且是完整的。

但數據治理不僅僅是為了省錢,否則你會扔掉。 這是關於盈利性增長。 談論您的企業如何對待州指定的細節(您使用州全名還是縮寫?)可能並不令人振奮,但這是您能夠構建和部署高級模型的唯一方法,通過準確的分析、洞察力和預測,讓企業獲得競爭優勢。

數據治理最佳實踐:數據治理釋放競爭優勢的 4 種方式

歸根結底,數據治理只是一門好生意。 採用數據治理最佳實踐的公司將在即將到來的人工智能時代獲勝。 忽視建立這些流程的公司將被擊敗。

以下是您可以通過堅固可靠的數據基礎解鎖的 4 個優勢:

  1. 優化您的時間:有了強大的數據治理,數據分析師可以花更多的時間來構建模型,而花更少的時間清理事後不起作用的東西。 它還可以讓您避免浪費時間運行複雜的模型,結果卻發現您的結果毫無價值。
  2. 花費更少,獲得更多價值:您的數據越好,您的算法需要的複雜度就越低。 通過在構建模型之前完成基本的工作以整理數據庫,您將能夠使用更簡單的模型,這些模型需要更少的投資,但會產生出色的結果。
  3. 使您的數據分析民主化:當您運行較少的巴洛克模型時,您將不必僱用擁有 PHD 的整個數據科學家團隊來了解輸出。 您可以讓經驗不足的分析師處理這項工作並可靠地提供高質量的見解。
  4. 做出更好的營銷決策:當您優化時間、減少在技術上的花費並讓您的數據分析更易於訪問時,從成本節約的角度來看,您已經擁有了巨大的競爭優勢。 但是您也有機會構建更好的模型、漂亮的模型,這些模型可以準確預測和預測您下一步需要做什麼或需要在哪里花費,或者哪些渠道將獲得最佳 ROI。 有效的模型。

並且從數據科學家那裡得到它:最性感的高級模型是建立在堅實的基礎上的,因為它們基於可靠的數據。

詳細了解 Wpromote 的數據治理方法以及我們的增長規劃器模型如何利用我們專有技術平台 Polaris 上的最新技術改變遊戲規則。