<option id="ouweq"></option>

旗下產(chǎn)業(yè): A產(chǎn)業(yè)/?A實(shí)習(xí)/?A計(jì)劃

全國統(tǒng)一咨詢熱線：010-5367 2995

就業(yè)保障

學(xué)員成果

關(guān)于我們

全國校區(qū)

首頁 > 熱門文章 > 大數(shù)據(jù)分析 > 產(chǎn)品經(jīng)理如何推斷數(shù)據(jù)趨勢？

產(chǎn)品經(jīng)理如何推斷數(shù)據(jù)趨勢？

時(shí)間：2018-02-01來源：m.lb577.com點(diǎn)擊量：次作者：辛宇軒

時(shí)間：2018-02-01點(diǎn)擊量：次作者：辛宇軒

背景：

經(jīng)過產(chǎn)品經(jīng)理詳細(xì)且周密的埋點(diǎn)準(zhǔn)備工作以及產(chǎn)品線上各個(gè)環(huán)節(jié)童鞋的齊心協(xié)力，需求以及埋點(diǎn)方案終于上線啦。部分看官認(rèn)為上線了即代表大頭的活都完成了，實(shí)際上，上線后才是埋點(diǎn)剛剛開始收集數(shù)據(jù)的開端，這才剛剛開始~

收集了數(shù)據(jù)緊接著面臨的問題就是怎么分析才是最精準(zhǔn)的、嚴(yán)謹(jǐn)?shù)?？理想情況下從埋點(diǎn)上線那一刻起一直到產(chǎn)品退市，取全量所有時(shí)間點(diǎn)的數(shù)據(jù)進(jìn)行分析時(shí)，數(shù)據(jù)才最準(zhǔn)確。那在實(shí)際工作中也要用此方法嗎？顯然不行~

其次相信大家在日常工作中或多或少都聽說過以下的問題：

場景一：某產(chǎn)品的需求上線后，隔了一天，從后臺(tái)取出埋點(diǎn)數(shù)據(jù)一看，效果很好，有大量的用戶在使用這個(gè)功能。并且推動(dòng)了轉(zhuǎn)化率的提升，最終提升了核心指標(biāo)。安奈不住心中的喜悅，拿著一天的數(shù)據(jù)去跟領(lǐng)導(dǎo)匯報(bào)，結(jié)果卻被領(lǐng)導(dǎo)大罵一場~~

場景二：產(chǎn)品需求A（詳情頁X功能優(yōu)化）剛上線3天，還沒有分析需求A所涉及的所有主要評(píng)估埋點(diǎn)，以及輔助評(píng)估埋點(diǎn)，以及后續(xù)的流程，緊接著在同一個(gè)頁面：詳情頁上線需求Y。領(lǐng)導(dǎo)得知此事后，然后、然后產(chǎn)品經(jīng)理被領(lǐng)導(dǎo)叫去喝茶了…

場景三：某產(chǎn)品經(jīng)理說，自己負(fù)責(zé)的產(chǎn)品已經(jīng)處于產(chǎn)品生命周期的中后期了，不求快速迭代增長，只求穩(wěn)定，減緩數(shù)據(jù)下跌速度。需求少，幾個(gè)月都沒有一個(gè)需求上線。等上線需求以及埋點(diǎn)方案后，我等上3個(gè)月，3個(gè)月時(shí)間夠長！數(shù)據(jù)一定具備代表性，一定能反應(yīng)客觀真相。領(lǐng)導(dǎo)得知此事后，大家懂得，產(chǎn)品經(jīng)理被領(lǐng)導(dǎo)叫去喝茶了…

在不同的場景中各產(chǎn)品經(jīng)理是因?yàn)槭裁丛驅(qū)е卤徽?qǐng)喝茶呢，下面做下初步的問題拆解：

1、場景一中顯然取數(shù)的周期太短，樣本數(shù)據(jù)不具備代表性，不能代表整體趨勢。例如：新上線的功能，用戶趨于好奇去點(diǎn)了下，看看好用不好用，怎么用，而不是需求驅(qū)動(dòng)的功能使用。

2、場景二不僅3天的數(shù)據(jù)周期并不具備代表性不能代表整體趨勢。而且在X功能沒有輸出分析結(jié)論的前提下在同一個(gè)頁面上線需求Y。帶來的結(jié)果就是無論數(shù)據(jù)漲跌，都無法產(chǎn)出分析結(jié)論，X功能與Y功能相互影響，無法判定數(shù)據(jù)漲跌的原因。最壞的結(jié)果就是：雖然X功能導(dǎo)致數(shù)據(jù)下降，但是由于判斷兩個(gè)功能之間的影響關(guān)系，只能一刀切，兩個(gè)功能一起下線。

3、場景三雖然取數(shù)的周期足夠長，但是由于外部因素影響，也可能使數(shù)據(jù)有偏移客觀事實(shí)的趨向。例如在二手車行業(yè)，大的節(jié)日，不同的月份，以及新車發(fā)布會(huì)等等外部事件都會(huì)對(duì)產(chǎn)品數(shù)據(jù)的波動(dòng)產(chǎn)生較大的影響。

問題匯總：

1、上線后數(shù)據(jù)取幾天才能進(jìn)行推斷分析？為什么幾天的局部數(shù)據(jù)能代表整體？

2、同一份數(shù)據(jù)，不同的人給出了不同的結(jié)論？怎么把握了問題的核心抓住數(shù)據(jù)的趨勢？

帶著疑問，與大家一起利用統(tǒng)計(jì)學(xué)上的理論與方法進(jìn)入今天的正文，幫我們找到真相！

引言：

統(tǒng)計(jì)推斷.png

　在數(shù)據(jù)統(tǒng)計(jì)中研究現(xiàn)象的總體數(shù)量關(guān)系時(shí)，需要了解的總體對(duì)象的范圍往往是很大的，有時(shí)甚至是無限的，而由于各項(xiàng)目進(jìn)度、時(shí)間和精力等各種原因，以致有時(shí)在客觀上只能從中觀察部分?jǐn)?shù)據(jù)或有限數(shù)據(jù)進(jìn)行計(jì)算和分析，根據(jù)局部觀察結(jié)果來推斷總體。

并且根據(jù)局部觀察結(jié)果來推斷總體時(shí)，其中把握局部問題的核心才是當(dāng)務(wù)之急。從一大堆數(shù)字中看出模式和趨勢可能頗為不易，而求出平均數(shù)往往是把握全局的第一步。有了平均數(shù)就能迅速找出數(shù)據(jù)中最具代表性的數(shù)值，得出重要結(jié)論，在本篇中將與大家討論幾種方法，幫助計(jì)算最重要的統(tǒng)計(jì)量---均值、中位數(shù)，基于以上有效的匯總數(shù)據(jù)，達(dá)到得出簡練、有用的結(jié)果的目的。

正文：

為什么幾天的局部樣本數(shù)據(jù)能代表整體趨勢？首當(dāng)其沖則需要用到的就是統(tǒng)計(jì)學(xué)上的辛欽大數(shù)定律，討論定律前首先需要了解以下名詞：

名詞解釋：

相互獨(dú)立：獨(dú)立就是每次抽樣之間是沒有關(guān)系的,不會(huì)相互影響。

例如：本汪拋一枚骰子，第一次拋骰子的結(jié)果是1點(diǎn)，第二次拋骰子的結(jié)果是6點(diǎn)，第一次投中1點(diǎn)的結(jié)果并不影響第二次投中6點(diǎn)的結(jié)果，互不影響，相互獨(dú)立

同分布：同樣例如本汪拋骰子，每次投中任意點(diǎn)數(shù)的概率均為1/6,這就是同分布的。

意味著變量和變量之間具有相同的分布形狀和相同的分布參數(shù)，對(duì)離散隨機(jī)變量具有相同的分布律，對(duì)連續(xù)隨機(jī)變量具有相同的概率密度函數(shù)

獨(dú)立同分布：在概率統(tǒng)計(jì)理論中，指隨機(jī)過程中，任何時(shí)刻的取值都為隨機(jī)變量，如果這些隨機(jī)變量服從同一分布，并且互相獨(dú)立，那么這些隨機(jī)變量是獨(dú)立同分布。獨(dú)立同分布最早應(yīng)用于統(tǒng)計(jì)學(xué)，隨著科學(xué)的發(fā)展，獨(dú)立同分布已經(jīng)應(yīng)用數(shù)據(jù)挖掘，信號(hào)處理等不同的領(lǐng)域。

均值：為了求出一批數(shù)字的均值，我們會(huì)將這些數(shù)字加起來，然后除以這些數(shù)字的個(gè)數(shù)。均值是應(yīng)用最廣泛的統(tǒng)計(jì)量之一。由于使用如此頻繁，統(tǒng)計(jì)師專門給了他一個(gè)符號(hào)：μ。這是一個(gè)希臘字母（讀作“謬”）。記住這只是表示均值的一種簡介方法。

數(shù)學(xué)期望E（X）：通俗一點(diǎn)，各位看官老爺可以理解為我們生活中說的平均值（在統(tǒng)計(jì)學(xué)上叫均值μ，不過當(dāng)前為了便于通俗，可暫理解為E（X）=平均值，后面涉及數(shù)學(xué)期望E（X）時(shí)會(huì)單獨(dú)展開討論）。

基于以上名詞解釋后，下面介紹關(guān)鍵的辛欽大數(shù)定律：

設(shè)X1,X2，…是相互獨(dú)立，服從同一分布的隨機(jī)變量序列。且具有數(shù)學(xué)期望E（Xk）=μ.(k=1,2,…)。作前N個(gè)變量的算數(shù)平均

算數(shù)平均.png

注釋：讀作“西格瑪”各位看官老爺可以理解為“將所有的變量加起來的意思”

上圖中即代表，K從1到N所有變量加起來/n

則對(duì)于任意ε>0,有

公式.png

公式的證明過程此處不再展開。

上圖即代表當(dāng)外面lim下面的N趨近于無窮大前置條件下，K從1到N所有變量加起來/n

的結(jié)果減去平均值μ取絕對(duì)值后的結(jié)果小于任意大于0的變量的概率為1。

對(duì)于獨(dú)立同分布且具有相同均值μ的隨機(jī)變量X1，X2，…XN,當(dāng)N很大時(shí)，他們的算數(shù)平均數(shù)

算數(shù)平局2.png

很接近于μ，由此推導(dǎo)出以下結(jié)論：

可以用樣本的均值去估計(jì)總體均值。

所以，綜上所述，利用得出的結(jié)論，基于業(yè)務(wù)和實(shí)際樣本情況評(píng)估數(shù)據(jù)埋點(diǎn)時(shí)，我們就可以用每個(gè)埋點(diǎn)局部樣本數(shù)據(jù)推斷總體趨勢，這樣看似基于直觀的經(jīng)驗(yàn)得出的結(jié)論便具備了數(shù)學(xué)意義的理論支撐。

其中樣本數(shù)據(jù)在取數(shù)時(shí)在盡可能保證其他因素變量不變的前置條件下，取1周~2周之間的數(shù)據(jù)作為樣本進(jìn)行數(shù)據(jù)評(píng)估為宜。最好是1周后取一次查看數(shù)據(jù)表現(xiàn)并形成初步結(jié)論，2周后再取一次數(shù)據(jù)查看數(shù)據(jù)表現(xiàn)與第一周的數(shù)據(jù)在趨勢上是否吻合，是否存在較大的波動(dòng)進(jìn)行雙重驗(yàn)證，并輸出分析結(jié)論，如2份數(shù)據(jù)差異較大，則有必要詳解的向下拆解，并持續(xù)重點(diǎn)關(guān)注數(shù)據(jù)變化~

本例中基于二手車行業(yè)產(chǎn)品，以及工作經(jīng)驗(yàn)給出1~2周的數(shù)據(jù)周期作為參考，各位看官可根據(jù)實(shí)際情況以及樣本數(shù)據(jù)的波動(dòng)情況以及是否穩(wěn)定來動(dòng)態(tài)變化取數(shù)周期，靈活應(yīng)對(duì)。

經(jīng)過以上數(shù)據(jù)周期后，假設(shè)我們獲得以下數(shù)據(jù)，如圖所示：

數(shù)據(jù)截圖.png

名詞解釋：

均值：可能以前有人讓你算過平均數(shù)，計(jì)算數(shù)據(jù)的平均數(shù)的一個(gè)方法是：將所有數(shù)字加起來然后除以數(shù)字的個(gè)數(shù)，在統(tǒng)計(jì)學(xué)中，這樣算出來的值叫做均值。

可能各位看官會(huì)問，我已經(jīng)習(xí)慣了叫平均數(shù)了，這樣叫有什么不妥嗎？

且聽我慢慢道來，因?yàn)樵诮y(tǒng)計(jì)學(xué)上平均數(shù)不止一種，我們必須知道如何分別稱呼每一種平均數(shù)，才能方便的告訴別人你所說的是哪一種平均數(shù)，避免產(chǎn)生歧義，就像我們?nèi)ベI果汁，在果汁店要告訴售貨員要哪種果汁？蘋果汁？西瓜汁？還是梨汁？考慮到這一點(diǎn)，最好是明確指定所用的是哪一種平均數(shù)的計(jì)算方法。

首先介紹均值：為了求出一批數(shù)字的均值，我們會(huì)將這些數(shù)字加起來，然后除以這些數(shù)字的個(gè)數(shù)。均值是應(yīng)用最廣泛的統(tǒng)計(jì)量之一。由于使用如此頻繁，統(tǒng)計(jì)師專門給了他一個(gè)符號(hào)：μ。這是一個(gè)希臘字母（讀作“謬”）。記住這只是表示均值的一種簡介方法。

簡便方法.png

頻數(shù)：在計(jì)算一批數(shù)據(jù)的均值時(shí)，我們常常會(huì)發(fā)現(xiàn)有些數(shù)字是重復(fù)的。例如上圖中有三天的數(shù)據(jù)都是100。

有一點(diǎn)確實(shí)很重要：在計(jì)算均值的時(shí)候，要把每個(gè)數(shù)的頻數(shù)考慮進(jìn)去，為了確保不忽視這一點(diǎn)，我們可以把它寫入公式，用f代表頻數(shù)，就可以重新將均值表示如下：

簡便方法2.png

這是表示均值的另一種方法，但這次明確指出了頻數(shù)，用這個(gè)方法計(jì)算的數(shù)據(jù)，得出：

簡便方法3.png

然后我們得出初步結(jié)論：X按鈕的典型值μ等于627，每天有627的點(diǎn)擊量！

此時(shí)可能部分看官提出了挑戰(zhàn)，任務(wù)這個(gè)典型值是錯(cuò)誤的，因?yàn)闆]有一個(gè)值等于或者近似于679.9這個(gè)典型值。

哪里出現(xiàn)了問題？

我們需要查看數(shù)據(jù)，探明究竟，讓我們看看，繪制一個(gè)數(shù)據(jù)表格，看能否有助于幫助我們找到問題所在。

頻數(shù)與點(diǎn)擊量表格.png

并繪制成直方圖如下：

直方圖.png

通過直方圖看出點(diǎn)擊量形成了對(duì)稱的形狀，很容易看出點(diǎn)擊量的典型值。大部分的點(diǎn)擊量都在100上下，有2個(gè)值遠(yuǎn)遠(yuǎn)超過100，分別是3000和3002，像這樣的極值被稱作異常值。

通過直方圖可以看出，樣本中存在3000和3002這兩個(gè)異常值，那如果去除這兩個(gè)異常值，均值會(huì)是多少？與實(shí)際的均值進(jìn)行對(duì)比會(huì)得出異常值的影響是什么？

觀察數(shù)據(jù)的表格與直方圖，很容易看出點(diǎn)擊量在99.7左右，如果表格中不包含那2個(gè)異常值的話，99.7就是均值。這2個(gè)異常值扭曲了均值，使均值抬高了。一旦發(fā)生了這種情況，我們就說數(shù)據(jù)偏斜了。

偏斜的原因是異常值處于均值的右邊，我們稱這種情況為向右偏斜。

向右偏斜的數(shù)據(jù)有一條“尾巴”，這條尾巴由偏大異常值形成，偏大異常值扭曲了均值，使均值拉高了—即拉向了右邊。

右偏.png

同理，以下圖為例解釋“向左偏斜”，下圖中近似出的數(shù)據(jù)分布曲線向左偏斜了，表明存在異常值（極小值），這些異常值較低把均值拉向了左邊。在這種情況下，均值小于大部分值。

左偏.png
在理想情況下，我們會(huì)希望看到通過直方圖近似出來的曲線為呈對(duì)稱形態(tài)。如果數(shù)據(jù)對(duì)稱，則均值位于中央。不會(huì)有任何異常值將均值拉向任何一側(cè)，中央位置兩側(cè)的數(shù)據(jù)形態(tài)大致相同。如下圖所示：

正太.png

中位數(shù)：

當(dāng)偏斜數(shù)據(jù)和異常值使均值產(chǎn)生誤導(dǎo)時(shí)，我們就需要用其他方式表示典型值。“中位數(shù)”閃亮登場，我們可以取中間值，這種做法是可行的，中間值其實(shí)就是另一種平均數(shù)，統(tǒng)計(jì)學(xué)上稱為中位數(shù)。

為了求出點(diǎn)擊量的中位數(shù)，首先將點(diǎn)擊量升序排列，取出中間數(shù)，如下所示：

中位數(shù).png

如果各位看官在計(jì)算時(shí)，數(shù)量為偶數(shù)的話，則只要將兩個(gè)中間數(shù)加起來，再除以2,即可，結(jié)果就是中位數(shù)。此處不再展開討論。

大多數(shù)場景下，我們會(huì)使用均值，因?yàn)榫档膬?yōu)勢遠(yuǎn)勝于中位數(shù)，均值對(duì)于抽樣數(shù)據(jù)來說更穩(wěn)定，但是如上文所述，均值也有缺點(diǎn)，當(dāng)樣本數(shù)據(jù)中存在異常值時(shí)，均值會(huì)被異常值帶偏，在這樣的場景下則可以使用中位數(shù)來表示典型值，因?yàn)橹形粩?shù)總是穩(wěn)穩(wěn)的站在樣本數(shù)據(jù)的中間。此外除了我們討論的均值、中位數(shù)外，還有一個(gè)平均數(shù)：眾數(shù)，適用于一個(gè)樣本數(shù)據(jù)中存在兩種類型的數(shù)據(jù)時(shí)使用，因?yàn)樵诮y(tǒng)計(jì)埋點(diǎn)時(shí)均為一類一類的統(tǒng)計(jì)，不存在眾數(shù)的應(yīng)用場景，所以此處不再展開。

總結(jié)：

基于統(tǒng)計(jì)學(xué)上辛欽大數(shù)定律：可以用樣本的平均值去估計(jì)總體平均值，作為理論基礎(chǔ)，解決了為什么能利用局部數(shù)據(jù)代表整體趨勢的問題，其次解釋了局部樣本數(shù)據(jù)取數(shù)周期的邏輯，為各位看官在自己實(shí)際工作中靈活取樣本數(shù)據(jù)的數(shù)據(jù)周期提供一些思路。并進(jìn)一步通過利用統(tǒng)計(jì)學(xué)上均值與中位數(shù)找到樣本數(shù)據(jù)的典型值方法，解決在一份樣本數(shù)據(jù)中如何把握問題的核心抓住數(shù)據(jù)的趨勢的問題，防止因異常值的影響對(duì)數(shù)據(jù)做出錯(cuò)誤解讀，使數(shù)據(jù)真正客觀真實(shí)的反應(yīng)趨勢，進(jìn)而解決業(yè)務(wù)問題，創(chuàng)造價(jià)值。