TY - GEN AU - Molnar C. TI - Interpretable Machine Learning: :A Guide For Making Black Box Models Explainable SN - 9789355428370 PY - 2024/// PB - SPD N2 - Contents Preface by the Author ix 1 Introduction 1 1.1 Story Time . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 What Is Machine Learning? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Terminology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2 Interpretability 13 2.1 Importance of Interpretability . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Taxonomy of Interpretability Methods . . . . . . . . . . . . . . . . . . . . . . 18 2.3 Scope of Interpretability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.4 Evaluation of Interpretability . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.5 Properties of Explanations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.6 Human-friendly Explanations . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3 Datasets 31 3.1 Bike Rentals (Regression) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2 YouTube Spam Comments (Text Classification) . . . . . . . . . . . . . . . . . 32 3.3 Risk Factors for Cervical Cancer (Classification) . . . . . . . . . . . . . . . . 33 4 Interpretable Models 35 4.1 Linear Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.3 GLM, GAM and more . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.4 Decision Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.5 Decision Rules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.6 RuleFit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.7 Other Interpretable Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5 Model-Agnostic Methods 109 6 Example-Based Explanations 113 7 Global Model-Agnostic Methods 115 7.1 Partial Dependence Plot (PDP) . . . . . . . . . . . . . . . . . . . . . . . . . . 116 7.2 Accumulated Local Effects (ALE) Plot . . . . . . . . . . . . . . . . . . . . . . 122 7.3 Feature Interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 7.4 Functional Decomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 v vi Contents 7.5 Permutation Feature Importance . . . . . . . . . . . . . . . . . . . . . . . . . 157 7.6 Global Surrogate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.7 Prototypes and Criticisms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 8 Local Model-Agnostic Methods 179 8.1 Individual Conditional Expectation (ICE) . . . . . . . . . . . . . . . . . . . . 180 8.2 Local Surrogate (LIME) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 8.3 Counterfactual Explanations . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 8.4 Scoped Rules (Anchors) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 8.5 Shapley Values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 8.6 SHAP (SHapley Additive exPlanations) . . . . . . . . . . . . . . . . . . . . . 227 9 Neural Network Interpretation 241 9.1 Learned Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 9.2 Pixel Attribution (Saliency Maps) . . . . . . . . . . . . . . . . . . . . . . . . 254 9.3 Detecting Concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 9.4 Adversarial Examples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270 9.5 Influential Instances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 10 A Look into the Crystal Ball 295 10.1 The Future of Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . 296 10.2 The Future of Interpretability . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 11 Contribute to the Book 301 12 Citing this Book 303 13 Translations 305 14 Acknowledgements 307 ER -