作者:國(guó)工智能實(shí)施團(tuán)隊(duì)—左鵬
前言
近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是企業(yè)在生產(chǎn)、運(yùn)營(yíng)過(guò)程中產(chǎn)生大量的數(shù)據(jù),迫切的需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場(chǎng)分析,工程設(shè)計(jì)和科學(xué)探索等。
國(guó)工智能實(shí)驗(yàn)室LIMS系統(tǒng)融合了國(guó)工智能數(shù)據(jù)大腦平臺(tái),平臺(tái)內(nèi)提供上百種統(tǒng)計(jì)學(xué)相關(guān)算法及機(jī)器學(xué)習(xí)算法;通過(guò)這些算法對(duì)企業(yè)數(shù)據(jù)進(jìn)行分類分析、聚類分析、關(guān)聯(lián)分析、預(yù)測(cè)分析,挖掘數(shù)據(jù)潛在價(jià)值,探索人力無(wú)法探知的規(guī)律,提高企業(yè)產(chǎn)品附加值及行業(yè)競(jìng)爭(zhēng)力,助力企業(yè)快速發(fā)展。本次案例就雙樣本Poisson檢驗(yàn)與實(shí)驗(yàn)室LIMS系統(tǒng)相融合進(jìn)行探討及應(yīng)用舉例。
案例
某企業(yè)質(zhì)檢實(shí)驗(yàn)室需要檢驗(yàn)A、B兩種實(shí)驗(yàn)樣品的缺陷數(shù)量,在相同的檢驗(yàn)方案條件下分別用A、B兩種實(shí)驗(yàn)樣品進(jìn)行檢驗(yàn),得到的檢驗(yàn)結(jié)果如圖1所示,試分析在相同檢驗(yàn)方案情況下,A、B兩種實(shí)驗(yàn)樣品的缺陷出現(xiàn)率。

圖1檢驗(yàn)結(jié)果
分析過(guò)程
使用國(guó)工數(shù)據(jù)大Excel讀取組件,將數(shù)據(jù)集映射到系統(tǒng)中。

圖2 Excel讀取
再通過(guò)拖拽的方式將雙樣本Poisson率檢驗(yàn)分析組件與Excel讀取鏈接到一起。使用集成好算法的雙樣本Poisson分析組件進(jìn)行數(shù)據(jù)的Poisson分析處理,對(duì)組件參數(shù)進(jìn)行設(shè)置,因素字段配置為factor,結(jié)果值配置為檢驗(yàn)結(jié)果result,顯著性水平設(shè)置為0.05,單擊運(yùn)行,從調(diào)試面板中查看分析結(jié)果。

圖3雙樣本Poisson率校驗(yàn)分析組件及參數(shù)配置
分析結(jié)果

圖4分析結(jié)果
從圖4中運(yùn)用雙樣本Poisson分析得出的結(jié)果可以看出,由于p 值0.157大于顯著性水平(用α 或alpha表示)0.05,因此分析員否定原假設(shè)并得出兩個(gè)樣本缺陷發(fā)生率不同的結(jié)論。95%置信區(qū)間表明,樣本B 的缺陷率可能高于樣本A 的缺陷率。
與LIMS系統(tǒng)相融合
國(guó)工數(shù)據(jù)大腦平臺(tái)可直接獲取實(shí)驗(yàn)室LIMS系統(tǒng)中的實(shí)驗(yàn)數(shù)據(jù),直接將實(shí)驗(yàn)數(shù)據(jù)對(duì)接到創(chuàng)建好的雙樣本Poisson檢驗(yàn)?zāi)P椭,根?jù)得出的分析結(jié)果自動(dòng)對(duì)報(bào)告進(jìn)行判定,代替人工判定;并將存在缺陷顯著性差異的報(bào)告重點(diǎn)推送給相關(guān)領(lǐng)導(dǎo)引起重視。根據(jù)領(lǐng)導(dǎo)對(duì)存在顯著性差異報(bào)告的處理,可自動(dòng)觸發(fā)二次檢驗(yàn)流程等操作。
含義
實(shí)驗(yàn)室系統(tǒng)中的雙樣本Poisson檢驗(yàn)用于比較兩個(gè)遵循Poisson分布的總體的均值或發(fā)生率以確定它們是否存在顯著差異的假設(shè)檢驗(yàn)。Poisson分布可為時(shí)間在給定時(shí)間內(nèi)發(fā)生次數(shù)、面積、體積或其他觀測(cè)空間建模。
適用范圍
·確定兩個(gè)組的總體發(fā)生率是否不同。
·計(jì)算可能包括總體率之間差值的值范圍。
例如,實(shí)驗(yàn)員檢查2 個(gè)批次(A和 B)上每箱實(shí)驗(yàn)樣本的缺陷數(shù)量。一個(gè)樣品可能會(huì)有多個(gè)缺陷,對(duì)于批次A,每箱包含10個(gè)樣本。實(shí)驗(yàn)員總共抽取50箱,共發(fā)現(xiàn)122個(gè)缺陷。對(duì)于批次B,每箱包含15個(gè)毛巾。實(shí)驗(yàn)員總共抽取50箱,共發(fā)現(xiàn)132個(gè)缺陷。
對(duì)于批次A,總發(fā)生次數(shù)為122,原因是實(shí)驗(yàn)員發(fā)現(xiàn)了122個(gè)缺陷。對(duì)于批次B,此數(shù)字為132,原因是實(shí)驗(yàn)員發(fā)現(xiàn)了132個(gè)缺陷。
對(duì)于這兩個(gè)批次,樣本數(shù)量(N)均為50,原因是實(shí)驗(yàn)員對(duì)于這兩個(gè)批次均抽取了50箱。
為了確定每個(gè)樣本的缺陷數(shù),實(shí)驗(yàn)員對(duì)批次A 使用觀測(cè)值長(zhǎng)度10,原因是每箱有10個(gè)樣本。對(duì)于批次B,檢查員使用觀測(cè)值長(zhǎng)度15。
對(duì)于批次A,采樣率為(總發(fā)生次數(shù)/ N)/(觀測(cè)值長(zhǎng)度)= (112/50) / 10 = 0.224。對(duì)于批次B,采樣率為(132/50) / 15 = 0.176。因此,批次A 中每個(gè)樣本平均有0.244個(gè)缺陷,批次B 中每個(gè)樣本平均有0.176個(gè)缺陷。
由于實(shí)驗(yàn)員輸入的觀測(cè)值長(zhǎng)度不為1,因此數(shù)據(jù)大腦也將計(jì)算樣本均值。對(duì)于批次A,樣本均值為(總發(fā)生次數(shù)/ N)= 112/50 = 2.24。對(duì)于批次B,樣本均值為132/50 = 2.64。樣本均值描述每箱的平均缺陷數(shù)。但是,由于各箱中含有不同數(shù)量的實(shí)驗(yàn)樣本,因此采樣率是更有用的統(tǒng)計(jì)量。
責(zé)任編輯:殷守龍