第四十六章:過擬合
關燈
小
中
大
想到此處,周婺的眉頭皺得厲害,顯得有些憤然。
她這人雖是理性,但又並非冷血無情,相反,她對生命卻始終秉持著某種善意和敬畏,沒人能輕易奪走別人的性命,也沒人能夠站在制高點制裁或懲戒他人,周婺總是這樣認為著。
周婺拍了拍自己的臉頰,在調整自己的狀態後,又投入到了編寫代碼的海洋之中。
對於本次分析,周婺選擇了卡方齊性檢驗、多分類logistics、反向傳播神經網絡、決策樹、隨機森林、支持向量機、K近鄰這些最基礎的分析方法,並根據不同的方法調整了數據格式。她之所以沒有采用深度學習方法,是因為周婺想一切從簡,她始終認為,若能使用簡單方法解決並說明問題,覆雜的方法便沒有用的必要。
她的思路很簡單,在短時間內,他們對數據的預處理可能並不能做到面面俱到,但如果說單一一個模型的預測可能存在預測誤差,那麽多個模型的輸出結果都同時指證一個嫌疑人,則必能從側面認定模型的有著較高的可信度。
等周婺將模型參數一一調整,完成了各類方法的最終代碼後,她最後才將處理後的《關於影城市郊區野生羊群行為軌跡、羊群種類的預測研究》文件數據代入現有模型。
又過了幾分鐘,當所有的模型全部都得出同一個答案時,周婺的心才徹底地踏實了起來,因為預測結果與她懷疑的正是同一個人!
此刻,清晨的第一縷陽光透過玻璃窗打到了周婺的身上。
霎時間,周婺忽然感到一股暖意,又讓辦公室的空氣變得明快鮮活了起來。
隨後,周婺拿出了手機,在給顧子愷發了幾行消息後,這才伸了個大大地懶腰,整個人放松地靠在了躺椅之上,無比滿足。
不一會兒,周婺徹底睡著了。
——————————
七夕情人節的第二天上午,十點二十六分。
當白劍英被值班同事帶到六號審訊室時,他就看到了穿著警服並正在閉目養神的周婺。
“這不是昨天的那位警察同志麽!”白劍英的神情在瞬間變得諂媚,只見他恭敬地走到了周婺對面,坐下後才道:“您這個時候找我,是想讓我配合什麽麽?”
周婺緩緩睜開了雙眼,她的目光對上了白劍英的視線,理性中透露著些微寒意。
“我國的法律上有這樣的規定,在無任何證據的情況下,警方對嫌疑人的拘留時間不得超過二十四小時。白劍英,你是不是覺得自己很快就可以離開了。”周婺說得諷刺。
白劍英故意擦了擦額頭上的細汗,疑惑著說:“警察同志,您這話什麽意思,我不太懂。”
“你又何必再裝,殺害許威的兇手不就是你麽?”周婺冷冷地說道。
“警官同志,飯可以亂吃,但是話可不能亂講啊!我之前已經說得很清楚了,昨天下午從我和許威發生爭執以後,就再也沒有見過他!再說了,我和許威無冤無仇,我殺他能有什麽好處?”白劍英狡辯道。
聽到此處,周婺蔑然一笑:“《關於影城市郊區野生羊群行為軌跡、羊群種類的預測研究》,分析報告名稱完美地描述了報告的內容。這個項目我叫人查過了,與影城市政府的物種保護計劃掛鉤,由於政府近幾年格外重視生態環境建設,經費自然充足。那麽,斯裏弗爾爭取到了市政府的這次合作,自然讓斯裏弗爾獲得了高額的項目經費。剛巧,這個項目的總負責人就是你,只要項目運行成功,你就能在斯裏弗爾平步青雲。你也說過,昨日,你和許威因為這個項目發生了激烈的爭執。”
“沒錯,我和許威確實爭吵過一架,可一切都是許威的無理取鬧,您昨晚也看過許威的那篇報告了,模型的預測結果很好,錯判率也縮小到了1%!就算許威硬要延期,就憑這份報告,我同樣可以交差!”白劍英顯得有些氣急敗壞。
“但是問題就在於那份報告真的許威寫的麽?又或者前半段是他寫的,可後半段被某些人做了手腳。”周婺挑了挑眉。
“您懷疑我修改了他的報告?”
“沒錯。”
白劍英頓了頓,竟在此刻冷靜了下來,他的目光變得幽深,笑得淡定自若:“可是您沒有證據。而且,我也確實並沒有修改報告,更不曾對許威痛下殺手。”
“你很聰明,白劍英。在你昨天把雲端文檔全部丟給我們的時候,就是想用雲端的文件量級把我們嚇跑。要知道,這麽多份文件全部仔仔細細地查閱一遍,都需要不少的時間。”周婺將手指交叉,才道:“可是你未免太小看影城市警方的實力了。”
話畢,周婺用pad打開了那篇名為《關於影城市郊區野生羊群行為軌跡、羊群種類的預測研究》的分析報告,她將報告拉到模型預測的那頁,才將內容擺在了白劍英的面前。
“白先生,你現在改口還來得及。”周婺強調著。
“警察同志,我不知道我為什麽要承認一件我並未做過的事!”白劍英回得理直氣壯。
周婺冷笑一聲,口氣略帶些微不屑:“在業內,分析師一般都會把建好的模型放在其他新數據中進行擬合,之後通過cost function來評價模型擬合的好壞。這件事對於高級數據分析師來說是常識中的常識,因為如果不這麽做,很有可能會導致模型過擬合現象的發生。我想你一定不知道過擬合是什麽意思,那我現在和你解釋,所謂過擬合,就是該模型十分貼合訓練數據,模型的預測精度極高,但是若將新數據代入模型當中,模型的預測效果會急速下滑,原因是方差變大了。在統計學上,人們習慣用均值、中位數、眾數來描述一個指標的集中度,那麽方差就是集中度的反面,它描述的是指標的波動程度,也就是指標的離散度高低。如果預測的方差變大,這就會影響模型的穩定性!同樣的報告,我派人將報告的信息隱去,只就這部分內容分別詢問過陸殷川和蔣傑,他們只看了一眼,就指出了預測樣本的問題。你說,許威作為一個高級數據分析師,他會不知道問題所在麽?”
白劍英沒有說話,臉色反倒有些蒼白。
本站無廣告,永久域名(danmei.twking.cc)
她這人雖是理性,但又並非冷血無情,相反,她對生命卻始終秉持著某種善意和敬畏,沒人能輕易奪走別人的性命,也沒人能夠站在制高點制裁或懲戒他人,周婺總是這樣認為著。
周婺拍了拍自己的臉頰,在調整自己的狀態後,又投入到了編寫代碼的海洋之中。
對於本次分析,周婺選擇了卡方齊性檢驗、多分類logistics、反向傳播神經網絡、決策樹、隨機森林、支持向量機、K近鄰這些最基礎的分析方法,並根據不同的方法調整了數據格式。她之所以沒有采用深度學習方法,是因為周婺想一切從簡,她始終認為,若能使用簡單方法解決並說明問題,覆雜的方法便沒有用的必要。
她的思路很簡單,在短時間內,他們對數據的預處理可能並不能做到面面俱到,但如果說單一一個模型的預測可能存在預測誤差,那麽多個模型的輸出結果都同時指證一個嫌疑人,則必能從側面認定模型的有著較高的可信度。
等周婺將模型參數一一調整,完成了各類方法的最終代碼後,她最後才將處理後的《關於影城市郊區野生羊群行為軌跡、羊群種類的預測研究》文件數據代入現有模型。
又過了幾分鐘,當所有的模型全部都得出同一個答案時,周婺的心才徹底地踏實了起來,因為預測結果與她懷疑的正是同一個人!
此刻,清晨的第一縷陽光透過玻璃窗打到了周婺的身上。
霎時間,周婺忽然感到一股暖意,又讓辦公室的空氣變得明快鮮活了起來。
隨後,周婺拿出了手機,在給顧子愷發了幾行消息後,這才伸了個大大地懶腰,整個人放松地靠在了躺椅之上,無比滿足。
不一會兒,周婺徹底睡著了。
——————————
七夕情人節的第二天上午,十點二十六分。
當白劍英被值班同事帶到六號審訊室時,他就看到了穿著警服並正在閉目養神的周婺。
“這不是昨天的那位警察同志麽!”白劍英的神情在瞬間變得諂媚,只見他恭敬地走到了周婺對面,坐下後才道:“您這個時候找我,是想讓我配合什麽麽?”
周婺緩緩睜開了雙眼,她的目光對上了白劍英的視線,理性中透露著些微寒意。
“我國的法律上有這樣的規定,在無任何證據的情況下,警方對嫌疑人的拘留時間不得超過二十四小時。白劍英,你是不是覺得自己很快就可以離開了。”周婺說得諷刺。
白劍英故意擦了擦額頭上的細汗,疑惑著說:“警察同志,您這話什麽意思,我不太懂。”
“你又何必再裝,殺害許威的兇手不就是你麽?”周婺冷冷地說道。
“警官同志,飯可以亂吃,但是話可不能亂講啊!我之前已經說得很清楚了,昨天下午從我和許威發生爭執以後,就再也沒有見過他!再說了,我和許威無冤無仇,我殺他能有什麽好處?”白劍英狡辯道。
聽到此處,周婺蔑然一笑:“《關於影城市郊區野生羊群行為軌跡、羊群種類的預測研究》,分析報告名稱完美地描述了報告的內容。這個項目我叫人查過了,與影城市政府的物種保護計劃掛鉤,由於政府近幾年格外重視生態環境建設,經費自然充足。那麽,斯裏弗爾爭取到了市政府的這次合作,自然讓斯裏弗爾獲得了高額的項目經費。剛巧,這個項目的總負責人就是你,只要項目運行成功,你就能在斯裏弗爾平步青雲。你也說過,昨日,你和許威因為這個項目發生了激烈的爭執。”
“沒錯,我和許威確實爭吵過一架,可一切都是許威的無理取鬧,您昨晚也看過許威的那篇報告了,模型的預測結果很好,錯判率也縮小到了1%!就算許威硬要延期,就憑這份報告,我同樣可以交差!”白劍英顯得有些氣急敗壞。
“但是問題就在於那份報告真的許威寫的麽?又或者前半段是他寫的,可後半段被某些人做了手腳。”周婺挑了挑眉。
“您懷疑我修改了他的報告?”
“沒錯。”
白劍英頓了頓,竟在此刻冷靜了下來,他的目光變得幽深,笑得淡定自若:“可是您沒有證據。而且,我也確實並沒有修改報告,更不曾對許威痛下殺手。”
“你很聰明,白劍英。在你昨天把雲端文檔全部丟給我們的時候,就是想用雲端的文件量級把我們嚇跑。要知道,這麽多份文件全部仔仔細細地查閱一遍,都需要不少的時間。”周婺將手指交叉,才道:“可是你未免太小看影城市警方的實力了。”
話畢,周婺用pad打開了那篇名為《關於影城市郊區野生羊群行為軌跡、羊群種類的預測研究》的分析報告,她將報告拉到模型預測的那頁,才將內容擺在了白劍英的面前。
“白先生,你現在改口還來得及。”周婺強調著。
“警察同志,我不知道我為什麽要承認一件我並未做過的事!”白劍英回得理直氣壯。
周婺冷笑一聲,口氣略帶些微不屑:“在業內,分析師一般都會把建好的模型放在其他新數據中進行擬合,之後通過cost function來評價模型擬合的好壞。這件事對於高級數據分析師來說是常識中的常識,因為如果不這麽做,很有可能會導致模型過擬合現象的發生。我想你一定不知道過擬合是什麽意思,那我現在和你解釋,所謂過擬合,就是該模型十分貼合訓練數據,模型的預測精度極高,但是若將新數據代入模型當中,模型的預測效果會急速下滑,原因是方差變大了。在統計學上,人們習慣用均值、中位數、眾數來描述一個指標的集中度,那麽方差就是集中度的反面,它描述的是指標的波動程度,也就是指標的離散度高低。如果預測的方差變大,這就會影響模型的穩定性!同樣的報告,我派人將報告的信息隱去,只就這部分內容分別詢問過陸殷川和蔣傑,他們只看了一眼,就指出了預測樣本的問題。你說,許威作為一個高級數據分析師,他會不知道問題所在麽?”
白劍英沒有說話,臉色反倒有些蒼白。
本站無廣告,永久域名(danmei.twking.cc)