【智慧專欄】分解 OEE KPI ,並運用機器學習改善生產力
- YouThought
- 10月31日
- 讀畢需時 6 分鐘
已更新:11月12日
作者:郭仲仁 博士 宇清數位智慧股份有限公司公司董事長暨首席技術長
OEE (Overall Equipment Effectiveness)
OEE = Availability × Performance × Quality。三大構面分別代表可用率、性能與品質,能全面評估設備效能。透過細分指標分析,可精準識別效率損失來源。

以某半導體晶圓廠的關鍵生產機台為例,在總時間 24 小時當中,有 5 個小時是停機時間 (Down) 。在剩下的 20 個小時中,有4個小時是閒置 (Idle) 。當機器運行時,還會有效率損失 (Efficiency loss) 。此外,生產過程中也可能產生報廢 (Scrap) 。
最終只有約 60% 的設備資本支出 (CapEx) 真正有效地用於生產良品 (Good wafers)。因此,值得我們探討該如何減少停機時間、閒置時間和效率損失。特別是「效率」這塊,它就像一個黑盒子,需要我們去探索和拆解 KPI。
Downtime 分析與改善
宇清數位 (YouThought) 的資料庫包含了 16 座晶圓廠的個別 KPI 數據,其中就包括妥善率 (uptime) 。以離子植入機 (implanter) 為例,有些晶圓廠的妥善率很低,有些則很高。圖中顯示,這個案例晶圓廠 (The Fab) 的妥善率,比所有標竿廠 (benchmark) 的前 25% (Percentile 25) 低了 6% 。透過 Benchmark,可以發現有三個機台群組是造成妥善率偏低的主因。
Downtime 標竿比較 (benchmark) ▼

進一步將 uptime (妥善率) 拆解為 PM (預防性維護)、Monitor (監控) 和 Unscheduled down (非計畫性停機)。透過與 P25 標竿進行比較,我們發現這 3 個妥善率殺手的 PM 和 Monitor 時間都比標竿來得長。這在妥善率差的晶圓廠中非常普遍:他們過於保守,在 PM 和監控上浪費了資源。這不僅導致更多的停機時間,也浪費了許多零件與人力資源。
分解 uptime KPI ▼

Idle time 分析與改善
機台閒置的第一個原因是瓶頸機台的在製品 (WIP) 不足。我們需要一種方法來定義和維持安全在製品水位 (Safety WIP)。在這個瓶頸案例中,從第二天起實際產出 (Actual move) 就低於產能 (Capacity),導致當週產生了約 3% 的閒置時間。
宇清的 AI 系統 u-Planning 會定義安全在製品存量 (safety WIP) 來防止瓶頸機台缺料。當 WIP 增加時,產出會隨之增加;但當 WIP 達到飽和點 (Saturated level) 時,產出就不再增加了。在加上 3 個標準差 (sigma) 的 WIP 變異後,就能識別出安全在製品水位。
在第一天,這個站點出現了 WIP 氣泡,u-Planning 定義了更高的目標產出 (u-Planning move),將 WIP 推向瓶頸區。結果,到了第二天,瓶頸區擁有了比實際規劃更多的 WIP ,從而防止了機台因缺料而閒置。
維持瓶頸機台的 Safety WIP ▼

機台閒置的第二個原因是 PM 沒有安排在 WIP 較少的時候執行,因而造成閒置。因此,我們需要一個最佳的 PM 排程。
在這個案例中,週二的到貨量 (Arrival) 最少,這顯然是 PM 的最佳時機。然而,工廠卻在到貨量最大的週四進行 PM ,導致了 6% 的閒置 (Idle)。因此,我們需要將PM安排在適當的時間。PM 排程本質上是一個最佳化問題,其目標是最小化每日負載的變異,同時必須滿足每項 PM 的持續時間和允許的執行時間區間。最佳 PM 排程顯示,有些 PM 需要推遲,有些則需要提前。最終,每日的負載變得平衡,閒置時間也因此減少。
最佳化 PM Schedule ▼

另一個機台閒置的方法是將產品組合 (product mix) 最佳化,以利用更多的機台可用時間。根據原始的主生產排程 (MPS),在 n 個產品和 6 個月的規劃中,有兩個瓶頸機台:M1 滿載了 2 個月, M2 滿載了 3 個月。
透過應用基因演算法 (Genetic Algorithm, GA),經過交配 (Crossover)、突變 (Mutation) 和複製 (Reproduction),我們可以獲得近乎最佳的產品組合。
為了最大化產出,演算法會尋找可充分利用閒置產能的產品組合。結果,M1 和 M2 這兩個瓶頸機台都能在更多月份中達到滿載。
最佳化產品組合 ▼

Efficiency 分析與改善
如前所述,效率是一個結構複雜的黑盒子。等候理論 (Queueing Theory) 的營運曲線 (Operating curve) 告訴我們,「變異性」(Variability) 會影響生產週期時間 (Cycle Time)。
以一個非瓶頸機台為例,隨著平均利用率 (Avg Uti.) 增加,平均在製量 (Avg Queue WIP) 會非線性地增加。在平均利用率同為 88% 的點上,案例A的WIP卻高於案例 B 。這是因為案例 A 的利用率變異很大(範圍從 82% 到 94% ),導致平均 WIP 高達 800 件。相比之下,案例 B 的利用率變異較小,平均 WIP 僅有 600 件。這證明了變異會導致效率損失。
進一步分析,案例 A 將 PM 和 Monitor 都集中在白天,導致每小時妥善率的變異為 3% 。相反地,案例 B 將 PM 留在白班,但將監控作業安排到夜班,就像一個平衡的天平,妥善率的變異因此從 3% 降至 2% ,進而降低了利用率變異與 WIP ,縮短 Cycle Time ,並提升Productivity 。
變異造成效率損失 ▼

完整的 OEE KPI
從前一個案例可知,除了平均值類型的 KPI ,我們還應該監控變異型的 KPI 。
傳統工廠往往僅關注 15 項平均值類型的 KPI ,且這些 KPI 多數得仰賴工程手段改善。宇清提出額外的 15 個變異型 KPI ,多數可以靠管理手法加以改善,例如 Monitor 執行時機會影響的KPI,以及排程 (Scheduling) 或協作機器人 (COBOT) 可以改善的 KPI 。

運用機器學習找出改善機會
為了建構 KPI 對生產力影響的模型,我們應用了機器學習 (Machine Learning),例如類神經網路 (Neural Networks)。透過這個機器學習模型,飽和產出 (Saturated Move) 代表了產能。如果某個KPI得到改善,產能也將隨之提升。
以一個 Dry Etch 機台群為例,它與下游的 Dry Strip 有 Q-time 限制。模型辨識出 Dry Etch 的 6 個KPI和 Dry Strip 的 2 個 KPI 會影響 Dry Etch 的產能。透過 KPI 標竿分析和模型的敏感度分析,除了傳統的 KPI(如妥善率和處理時間),我們可以發掘額外的生產力改善機會。例如「機台 ID 負載變異 (COV of Machine ID Loading)」、「相同配方率 (Same Recipe Rate)」和「派工對到貨變異的影響」這三項,可以透過排程系統來改善。
發掘看不見得生產力改善機會 ▼

排程的目標在減少閒置時間和不必要的配方更換,從而提高生產力。要衡量排程系統導入對生產力提升的貢獻,需要一個方法排除工程改善或是產品組合變化的影響。宇清的系統將 KPI 分為「排程相關」與「非排程相關」。機器學習模型量化了每個 KPI 對生產力的影響。雖然模型的加總結果 (3.8%) 與實際改善 (3.6%) 略有差距,但經過誤差調整後,我們可以得出結論:排程系統對生產力的貢獻為 4% 。
衡量 Scheduling 系統對生產力的貢獻 ▼

結論
宇清結合資料驅動、AI 與人機協同,建構客戶專有的智慧製造體系,進而實現「以數據驅動卓越,以智慧實現未來」。
OEE 改善不僅關乎工廠效率,更是企業競爭力的核心所在。但 OEE 公式過於簡化,實務上很難據以研擬可行且有效的改善行動。宇清將 OEE 三項指標加以分解,發展出獨家的完整 KPI ,並運用 AI 機器學習技術,分析每一個客戶工廠自己的資料,找出其重點 KPI ,讓客戶將有限資源有效運用,發揮最大成效。
作者簡介
郭仲仁博士畢業於清華大學工業工程系,長期致力於研究機器學習(Machine Learning)與人工智慧(AI)技術,以提升製造效率,最佳化生產排程。現任宇清數位智慧股份有限公司董事長暨首席技術長(CTO),同時也擔任台積電顧問。




留言