第二十五章:實驗設計
關燈
小
中
大
約莫過了五分鐘,顧子愷那邊才有了動靜。
只見李蕊的半張臉出現在了視頻中,她氣喘籲籲地說道:“周副,剛剛問了孟茜。死者的報告在孟茜辦公室的公共電腦裏,密碼是xxxxxx。孟茜說部門所有人每天都會定時把電子版的實驗日報發到她的郵箱,而她也並沒有提出要提交紙質報告的要求,因此這純屬死者的個人行為。她說,或許只是因為死者這幾天很忙,忘記打印歸檔了也說不定。”
周婺聽到李蕊的敘述,連忙來到了孟茜的辦公室,打開了她辦公室的電腦,在輸入了一串密碼後,在首頁一個名叫“實驗日報”的文檔中找到了死者前天與昨天上交的實驗報告!
見此,周婺立刻將報告全文下載到自己的手機上,同時轉發給了李蕊。
隨後,周婺對著視頻中的李蕊說道:“李蕊,實驗報告我傳給你了,你把報告分別讓七層的那幾個人看,註意觀察他們看到報告的行為舉止,最後詢問他們這兩篇報告是否存在什麽問題。”
——“我明白了,周副!”
得到李蕊的答覆,周婺這才掛斷了視頻通話。
而一旁的曾琴琴早已將這兩份報告打印了出來,邊看邊說道:“周副,我剛剛掃了一眼這兩份報告。就覺得這些報告沒什麽問題啊,都是同一個項目,只是改進了方案而已!”
周婺接過曾琴琴手上的報告看了起來。
這是一份關於護膚品配方藥劑加入比例的實驗報告說明,這個項目應該是死者三天前從一位離職的同事手中接過來的。這名離職的同事周婺方才聽曾琴琴提起過,而曾琴琴也調出了離職同事的記錄,該名同事離職原因是因為出國深造,現在這名員工人已在了A國。那麽,方才顧子愷那邊提到的丟卡一事也可以說得通了。
周婺翻到實驗報告中結果分析一頁,對著結果分析表仔細看了起來。
曾琴琴見此湊到周婺身邊,盯著那個表格看了半晌,才嘆道:“總感覺這個實驗和我想的實驗不太一樣。”
“哪裏不一樣?”周婺回道。
“我們現在不是老說大數據大數據麽,我看這個實驗很簡單啊,就只做了九次而已。實驗次數少得令人不可置信!僅是九次就決定了產品藥劑的多少,未免也太武斷了些吧!我數學雖不好,可大學姑且也上過一學期的數理統計,樣本量越小,方差越大,這點我還是知道的!”
“那你認為要做多少次實驗才靠譜?”周婺反問。
“嗯,我想想,最少……也應該三十次吧!我記得我們老師是這麽說的。”曾琴琴認真思考道。
“三十次麽……但是,這個實驗只是對原有配方的一個改良,早已過了前期不斷摸索研制配方的階段了。區區一個改良性質的實驗就占用那麽大的資源。我要是公司老總,而你是這家公司的研究員,若你和我說你要做三十次以上的實驗才能給出結論,那我早就把你給開了!”周婺的視線還是盯著死者的報告。
“為什麽?”曾琴琴不解地說道。
周婺這才將之前她從庫房拿到的藥品明細單擺到曾琴琴面前,道:“你看裏面第一頁第八行的藥品,再看看死者報告中需要控制的第一種藥品。”
“好……”可當曾琴琴看到藥品的單價時竟嚇得雙腿發軟,道:“那麽貴!一小瓶就夠我好幾個月的工資了!”
周婺不可置否。
“周副,我總算明白為什麽他們不大規模進行實驗的原因了。”曾琴琴恍然大悟。
周婺卻用報告拍了拍曾琴琴的頭,回道:“這不光是時間、成本及精力的問題,只要經過精心的實驗設計,就算實驗次數較少,也能達到預期的目的。而且,很多情況下,大數據並不能真正解決問題,由於統計總體的緣故,大數據有可能還會得到錯誤的結論,具體原因在於這些數據很可能並不是隨機的。但是實驗設計卻能夠保證數據的隨機性。要知道,隨機性如若違背,結論便會有偏。”
“比如說?”
“比如說如果我是一個網絡爬蟲愛好者,親戚家承包了一片果園,讓我根據大數據分析A、B、C三種肥料的功效。我通過相關網絡,爬取了這三種肥料N年的數據記錄,數據共計20萬條。通過數據,我建立了一個簡單的模型,發現B肥料的效果最佳。於是我建議親戚購買B肥料。結果一年後,親戚家的果園產量一般,反倒是隔壁老王家使用了C肥料的果園產量猛增。”
“難道是模型建錯了?”
“不,問題不出在模型身上,而更有可能是數據本身。因為我爬到的數據都屬於二手數據,雖然數據的量很大,但我卻並不知道使用這些肥料的果園的土質、經緯度、光照等其他屬性,因為這份二手數據並無這方面的記錄,有的只是肥料的銷量、部分購買該肥料的用戶的評價及肥料可能造假的品質描述。如果我剛好爬到的絕大多數使用B肥料的果農,其果園的土壤就十分肥沃,所在地的經緯度也更適合果樹的生長,而C肥料雖好,但是多數用於貧瘠或氣候惡劣的環境下呢?更別說這些數據還有造假的風險。而這就是大數據可能存在的弊端,也是大數據永遠無法取代實驗設計的原因之一。除非你事先知情,但是除去實地搜集或提供數據的人本身,又有誰知道會知道這些情況呢?即便是公司自己搜集的數據,由於樣本的偏差,也可能會得到有偏的結論。如果不是國家機關和有關部門,又有誰能夠獲得一個城市、省份、甚至全國的相對真實且無偏的數據資料?”
“您說得很有道理!”說實話,直到現在曾琴琴才對周婺有所改觀,她甚至覺得周婺學識淵博得十分嚇人!
曾琴琴又看了看死者分析報告的結果,忽然,她像是發現了什麽新大陸似的,激動地說道:“周副,結果和表格裏的結論不一樣!您看,表格裏顯示在60度的加熱條件下,加入配方三和12g藥劑甲的情況對於皮膚的改善度高達90%,該值是這9個實驗裏最高的。那為什麽結論卻選擇了60度加熱下加入12g藥劑甲和配方一!”
本站無廣告,永久域名(danmei.twking.cc)
只見李蕊的半張臉出現在了視頻中,她氣喘籲籲地說道:“周副,剛剛問了孟茜。死者的報告在孟茜辦公室的公共電腦裏,密碼是xxxxxx。孟茜說部門所有人每天都會定時把電子版的實驗日報發到她的郵箱,而她也並沒有提出要提交紙質報告的要求,因此這純屬死者的個人行為。她說,或許只是因為死者這幾天很忙,忘記打印歸檔了也說不定。”
周婺聽到李蕊的敘述,連忙來到了孟茜的辦公室,打開了她辦公室的電腦,在輸入了一串密碼後,在首頁一個名叫“實驗日報”的文檔中找到了死者前天與昨天上交的實驗報告!
見此,周婺立刻將報告全文下載到自己的手機上,同時轉發給了李蕊。
隨後,周婺對著視頻中的李蕊說道:“李蕊,實驗報告我傳給你了,你把報告分別讓七層的那幾個人看,註意觀察他們看到報告的行為舉止,最後詢問他們這兩篇報告是否存在什麽問題。”
——“我明白了,周副!”
得到李蕊的答覆,周婺這才掛斷了視頻通話。
而一旁的曾琴琴早已將這兩份報告打印了出來,邊看邊說道:“周副,我剛剛掃了一眼這兩份報告。就覺得這些報告沒什麽問題啊,都是同一個項目,只是改進了方案而已!”
周婺接過曾琴琴手上的報告看了起來。
這是一份關於護膚品配方藥劑加入比例的實驗報告說明,這個項目應該是死者三天前從一位離職的同事手中接過來的。這名離職的同事周婺方才聽曾琴琴提起過,而曾琴琴也調出了離職同事的記錄,該名同事離職原因是因為出國深造,現在這名員工人已在了A國。那麽,方才顧子愷那邊提到的丟卡一事也可以說得通了。
周婺翻到實驗報告中結果分析一頁,對著結果分析表仔細看了起來。
曾琴琴見此湊到周婺身邊,盯著那個表格看了半晌,才嘆道:“總感覺這個實驗和我想的實驗不太一樣。”
“哪裏不一樣?”周婺回道。
“我們現在不是老說大數據大數據麽,我看這個實驗很簡單啊,就只做了九次而已。實驗次數少得令人不可置信!僅是九次就決定了產品藥劑的多少,未免也太武斷了些吧!我數學雖不好,可大學姑且也上過一學期的數理統計,樣本量越小,方差越大,這點我還是知道的!”
“那你認為要做多少次實驗才靠譜?”周婺反問。
“嗯,我想想,最少……也應該三十次吧!我記得我們老師是這麽說的。”曾琴琴認真思考道。
“三十次麽……但是,這個實驗只是對原有配方的一個改良,早已過了前期不斷摸索研制配方的階段了。區區一個改良性質的實驗就占用那麽大的資源。我要是公司老總,而你是這家公司的研究員,若你和我說你要做三十次以上的實驗才能給出結論,那我早就把你給開了!”周婺的視線還是盯著死者的報告。
“為什麽?”曾琴琴不解地說道。
周婺這才將之前她從庫房拿到的藥品明細單擺到曾琴琴面前,道:“你看裏面第一頁第八行的藥品,再看看死者報告中需要控制的第一種藥品。”
“好……”可當曾琴琴看到藥品的單價時竟嚇得雙腿發軟,道:“那麽貴!一小瓶就夠我好幾個月的工資了!”
周婺不可置否。
“周副,我總算明白為什麽他們不大規模進行實驗的原因了。”曾琴琴恍然大悟。
周婺卻用報告拍了拍曾琴琴的頭,回道:“這不光是時間、成本及精力的問題,只要經過精心的實驗設計,就算實驗次數較少,也能達到預期的目的。而且,很多情況下,大數據並不能真正解決問題,由於統計總體的緣故,大數據有可能還會得到錯誤的結論,具體原因在於這些數據很可能並不是隨機的。但是實驗設計卻能夠保證數據的隨機性。要知道,隨機性如若違背,結論便會有偏。”
“比如說?”
“比如說如果我是一個網絡爬蟲愛好者,親戚家承包了一片果園,讓我根據大數據分析A、B、C三種肥料的功效。我通過相關網絡,爬取了這三種肥料N年的數據記錄,數據共計20萬條。通過數據,我建立了一個簡單的模型,發現B肥料的效果最佳。於是我建議親戚購買B肥料。結果一年後,親戚家的果園產量一般,反倒是隔壁老王家使用了C肥料的果園產量猛增。”
“難道是模型建錯了?”
“不,問題不出在模型身上,而更有可能是數據本身。因為我爬到的數據都屬於二手數據,雖然數據的量很大,但我卻並不知道使用這些肥料的果園的土質、經緯度、光照等其他屬性,因為這份二手數據並無這方面的記錄,有的只是肥料的銷量、部分購買該肥料的用戶的評價及肥料可能造假的品質描述。如果我剛好爬到的絕大多數使用B肥料的果農,其果園的土壤就十分肥沃,所在地的經緯度也更適合果樹的生長,而C肥料雖好,但是多數用於貧瘠或氣候惡劣的環境下呢?更別說這些數據還有造假的風險。而這就是大數據可能存在的弊端,也是大數據永遠無法取代實驗設計的原因之一。除非你事先知情,但是除去實地搜集或提供數據的人本身,又有誰知道會知道這些情況呢?即便是公司自己搜集的數據,由於樣本的偏差,也可能會得到有偏的結論。如果不是國家機關和有關部門,又有誰能夠獲得一個城市、省份、甚至全國的相對真實且無偏的數據資料?”
“您說得很有道理!”說實話,直到現在曾琴琴才對周婺有所改觀,她甚至覺得周婺學識淵博得十分嚇人!
曾琴琴又看了看死者分析報告的結果,忽然,她像是發現了什麽新大陸似的,激動地說道:“周副,結果和表格裏的結論不一樣!您看,表格裏顯示在60度的加熱條件下,加入配方三和12g藥劑甲的情況對於皮膚的改善度高達90%,該值是這9個實驗裏最高的。那為什麽結論卻選擇了60度加熱下加入12g藥劑甲和配方一!”
本站無廣告,永久域名(danmei.twking.cc)