Kappa分析(Kappa Analysis)是一種用于評估分類一致性或信度的統(tǒng)計(jì)方法,尤其適用于兩名或多名評估者(raters)對同一組對象進(jìn)行分類時(shí),判斷其一致性是否超出隨機(jī)預(yù)期。它由Jacob Cohen在1960年提出,常用于醫(yī)學(xué)、心理學(xué)、社會(huì)科學(xué)等領(lǐng)域。
核心概念
目的:
衡量評估者之間的一致性(Inter-rater reliability)。
排除單純由隨機(jī)因素導(dǎo)致的一致性,提供更嚴(yán)格的評估。
Kappa系數(shù)(κ):
κ < 0:無一致性。
0-0.20:輕微。
0.21-0.40:一般。
0.41-0.60:中等。
0.61-0.80:高度一致。
0.81-1:幾乎完全一致。
κ = 1:完全一致。
κ = 0:一致性等于隨機(jī)預(yù)期。
κ < 0:一致性比隨機(jī)預(yù)期還差(罕見)。
取值范圍:-1 到 1。
一般標(biāo)準(zhǔn)(Landis & Koch, 1977):
破壞性測試中做 Kappa 分析,主要是為了評估不同檢驗(yàn)人員之間在判斷結(jié)果上的一致性,尤其適用于計(jì)數(shù)型數(shù)據(jù)(如合格/不合格)。由于樣品在測試過程中會(huì)被破壞,無法重復(fù)測量,因此方法上有一些特別的設(shè)計(jì)。以下是常見的做法:
Kappa 分析在破壞性測試中的基本流程
1. 樣本準(zhǔn)備
- 通常選取約 50 個(gè)樣本,確保覆蓋合格與不合格的情況。
- 樣本應(yīng)來自同一批次,確保其一致性。
- 每個(gè)樣本只能測一次,因此需多人對不同樣本進(jìn)行盲測。
2. 評價(jià)人員安排
- 通常安排 3 位檢驗(yàn)員,每人獨(dú)立判斷所有樣本。
- 每個(gè)檢驗(yàn)員對每個(gè)樣本只做一次判斷(因?yàn)闃颖緯?huì)被破壞)。
3. 數(shù)據(jù)記錄與分析
- 記錄每位檢驗(yàn)員對每個(gè)樣本的判斷結(jié)果(如 OK/NG)。
- 使用統(tǒng)計(jì)軟件(如 Minitab)進(jìn)行 Kappa 分析,計(jì)算一致性指標(biāo)。
4. Kappa 值解釋
- Kappa > 0.75:一致性良好
- 0.4 < Kappa ≤ 0.75:中等一致性
- Kappa ≤ 0.4:一致性較差,需要改進(jìn)
Po
:觀察到的實(shí)際一致性比例。
Pe:隨機(jī)預(yù)期下的一致性比例(通過邊際分布計(jì)算)。
附加指標(biāo)(可選)
- 誤判率:將合格品誤判為不合格的比例
- 漏判率:將不合格品誤判為合格的比例
- 有效性:判斷結(jié)果與基準(zhǔn)一致的比例(建議 ≥90%)
用焊接強(qiáng)度作為例子,我們可以設(shè)計(jì)一套適用于破壞性測試的 Kappa 分析方案。這里的關(guān)鍵在于,雖然每個(gè)試樣只能被測一次,我們?nèi)匀豢梢酝ㄟ^合理的抽樣和評價(jià)人員分配來進(jìn)行一致性分析。
焊接強(qiáng)度破壞性測試中的 Kappa 分析步驟
1. 樣本準(zhǔn)備
- 準(zhǔn)備約 50~60 個(gè)焊接樣本,覆蓋強(qiáng)度差異較明顯的區(qū)間(包括“合格”與“不合格”邊緣案例)。
- 樣品來自相同材料和工藝條件,以排除其他變量干擾。
2. 判定標(biāo)準(zhǔn)設(shè)定
- 明確合格判定的強(qiáng)度閾值(例如 ≥180N 被判定為合格)。
- 如使用“拉力破斷”法,可設(shè)置“斷裂載荷”作為主要判斷依據(jù)。
3. 評價(jià)方式(采用照片或視頻)
- 由于測試具有破壞性,可在施加拉力前拍攝高分辨圖像或錄像焊點(diǎn)。
- 測試完成后,采集殘余結(jié)構(gòu)和斷面圖像。
- 讓多位檢驗(yàn)員僅根據(jù)圖像對焊點(diǎn)是否“合格/不合格”作出判斷。
4. 數(shù)據(jù)收集與分析
- 建立一個(gè)判斷矩陣:列出每個(gè)檢驗(yàn)員對所有樣本的判斷。
- 使用統(tǒng)計(jì)工具(如 Minitab、Excel 插件、Python 等)計(jì)算 Cohen’s Kappa 或 Fleiss’ Kappa(如檢驗(yàn)員超過 2 人)。
5. 結(jié)果解釋與改進(jìn)建議
- 若 Kappa < 0.4,應(yīng)優(yōu)化培訓(xùn)、判定標(biāo)準(zhǔn)、圖像清晰度等環(huán)節(jié)。
- 可進(jìn)行再次盲測驗(yàn)證改進(jìn)效果。
小貼士
- 圖像必須具備足夠判讀性,包括:焊點(diǎn)大小、氣孔/裂紋情況、變形區(qū)域等。
- 若有機(jī)器讀數(shù)(如測試設(shè)備輸出數(shù)值),也可對比“主觀判斷”與“數(shù)值標(biāo)準(zhǔn)”的符合性。