以前、筆者(id:daikikatsuragawa)は反実仮想説明を生成するDiCEというPythonで実装されているライブラリに興味を持ちました。DiCEが生成する反実仮想説明は、現在の状態を望んだ状態に変えるために、必要となる具体的な特徴の変化例を算出するという点で、重要業績評価指標(Key Performance Indicator:KPI)の設定に貢献し、意思決定の促進に有効であると考えられます。しかし、複数の意思決定の促進を目的とした施策を設計する場合、考慮すべき課題が挙げられました。そこで、複数の意思決定の促進を目的とした施策の設計を支援することを動機として、複数の反実仮想説明に基づく手法を提案します。
- 意思決定を促進する反実仮想説明
- 複数の意思決定の促進を目的とした場合の課題
- 複数の意思決定の促進を目的としたひとつの施策の設計を支援する手法の提案
- 提案手法の実装
- 提案手法の有用性の検証
- 今後の課題と展望
- 本記事のまとめ
意思決定を促進する反実仮想説明
機械学習を活用したサービスでの目的として「予測」が挙げられます。例えばユーザの特徴に基づき、ユーザの状態を“望ましい状態”か否かの二値で分類します。このようなサービスの中には以下の動機へ対応する目的で提供されているものが存在していると考えられます。
- ユーザ自身が状態を把握したい
- “望ましい状態”ではないと予測された場合はそれを覆したい
- サービス提供者がユーザの状態を把握したい
- サービス提供者にとって“望ましい状態”のユーザの数を増やしたい
しかし、上述した目的のサービスにおいて、以下の課題が挙げられます。
- ユーザもしくサービス提供者は状態を覆すための具体的な行動指針がわからない
- 何をどのように行動(改善)したら良いのかがわからない
- そもそも決断に至る行動を設定できない
- 有識者でない人によって考案された行動指針が効果的かわからない
- 行動指針の信頼性が低いことにより行動の決断に至る可能性が低い
- 仮に行動指針に従ったところで望ましい状態にならない可能性が高い
以上の理由で、例えば予測を実施する機械学習を活用したサービスでは予測に加えて上記の課題を解決した、意思決定の促進を目的とした情報の提供が必要です。本記事における「意思決定」の定義を「行動を決断すること」、および「行動すること」、その結果として「特徴が変化すること」までとします。また「意思決定者」を行動指針に基づき、「意思決定」を実施するか否かといった判断が可能である人と定義します。ここで挙げる「行動指針」とは意思決定に必要なもので、「自身で判断が可能なもの」、「有識者によって提供されるもの」があると定義します。具体的には何をどれだけ変化させたら状態が覆るのかを表現したものであるとします。
課題の解決に対して、近年、議論や研究がなされている機械学習の解釈手法が有効であると考えられます。これらは予測の結果に対して、それからどういった解釈ができるのかをより詳細にユーザに伝えることを目的としています。その中でも「未来のためにどうしたら良いのか(どんな意思決定をしたら良いのか)」の指針を示すことを目的とした解釈手法があります。この手法により上述した課題の解決が期待されます。
上述した目的の機械学習の解釈手法のひとつとして反実仮想を応用した「反実仮想説明(Counterfactual Explanations)」が提案されています。反実仮想とは以下を意味します。
文法で、事実と反対のことを想定すること。「もし〜だったら…だろうに」のような言い方。
このような反実仮想を応用した反実仮想説明は、機械学習の予測に対して、状態が覆る、具体的な特徴の変化例を提案します。「もし〜だったら…だろうに」という伝え方が可能であるため、提案を受けた人は具体的な行動指針の想像が可能です。具体的には、「もし特徴Aがa、特徴Bがbだけ変化した場合、状態が覆る」と言ったことを伝えることが可能です。それゆえ、意思決定の促進に対する有効性が期待されます。
反実仮想説明を生成するDiCE*1というライブラリが開発されています。Pythonで実装されておりPypi*2で公開されています。筆者は個人的にDiCEに興味を持ち、以前、反実仮想説明をサービスとして活用するという観点で考察をしました。
daikikatsuragawa.hatenablog.com
その過程で、複数の意思決定の促進を目的とする場合、特に目的を満たすひとつの施策を設計する場合、工夫が必要であるという課題を挙げました。
複数の意思決定の促進を目的とした場合の課題
改めて課題を把握するために、反実仮想説明が必要となるサービスについて、ユースケースを以下の表にて整理します。2つの軸を設定し、それらに基づき比較します。
意思決定者が少ない/BtoB | 意思決定者が多い/BtoC | |
---|---|---|
有識者による解釈が不要(もしくは有識者≒意思決定者) | ①意思決定者が反実仮想説明を確認し「行動指針」を理解し自ら行動(組織向け) | ②意思決定者が反実仮想説明を確認し「行動指針」を理解し自ら行動(個人向け) |
有識者による解釈が必要 | ③有識者が反実仮想説明を解釈して行動指針(施策)を意思決定者に提案 | ④有識者が複数の反実仮想説明を解釈し複数の意思決定を促進する施策を提案 |
例えば「①意思決定者が反実仮想説明を確認し「行動指針」を理解し自ら行動(組織向け)」は法人向け(Business to Business:BtoB)な形式のサービスに当てはまります。その中でも有識者による解釈が不要、もしくは意思決定者自身が有識者であるため、反実仮想説明を参考にした行動指針の考案、意思決定の実現が可能です。組織を“望ましい状態”にするための分析、提案を提供するサービスがこれに当てはまります。それに対して「②意思決定者が反実仮想説明を確認し「行動指針」を理解し自ら行動(個人向け)」は消費者向け(Business to Consumer:BtoC)な形式のサービスに当てはまります。その中でも有識者による解釈が不要、もしくは意思決定者自身が有識者である例です。個人を“望ましい状態”にするための分析、提案を提供するサービスがこれに当てはまります。例えば、金融業界におけるローン許諾判定システムや、教育における受験の合格判定システムです。ユーザは具体的に何をしたら良いのか、判断できるはずです。次に「③有識者が反実仮想説明を解釈して行動指針(施策)を意思決定者に提案」はBtoBな形式のサービスで、出力される反実仮想説明に有識者による解釈が必要な例です。意思決定者にとって理解が難しい特徴が扱われている場合です。サービスの提供に加えて有識者であるコンサルタントによるサポートが前提となる状況です。
最後に「④有識者が複数の反実仮想説明を解釈し複数の意思決定を促進する施策を提案」です。結論から述べると、この状況への対応に課題が挙げられます。これはBtoCな形式のサービスかつ有識者が必要な例です。この時、BはCの意思決定を促進させたいと思うものの、対象となる意思決定者が複数、つまり対象となる反実仮想説明が複数であることから、施策の設計が困難です。またCに対して個別に施策を設計することも考えられます。しかし、その量の多さから現実的ではありません。それゆえ、この課題を解決するために、複数の反実仮想説明を理解、解釈し、要約したうえで、ひとつ、つまり、一体多の施策を設計する必要があります。これを実現する手法(処理)が必要であると考えられます。
本記事における「施策」の定義を、設定したKPIを達成することを目的としたアクションとします。そのための具体的なアクションのひとつに「複数の意思決定の促進」が属しています。また、それに対して、意思決定の促進を目的とした有識者による一対一のアクションのことを「診断」と定義します。
複数の意思決定の促進を目的としたひとつの施策の設計を支援する手法の提案
課題の解決のために以下の手法を提案します。以前、Minimum Viable Product*3に基づき実用最小限の手法を考えました。この手法を具体化してフレームワークとして提案します。提案手法の概念図を以下に示します。
前提として、いくつかの反実仮想、つまり“望ましい状態”へ状態が覆る特徴の変化例が生成されている状況であるとします。例として、n件の反実仮想が生成されているとします。はじめの処理として、n件の反実仮想をクラスタリングによって、k件のクラスタに分類します。それらをクラスタごとに要約します。本手法における、要約とは、ドメインによって異なるとは思いますが、大きく以下の2点を想定しています。
次の処理として、反実仮想の要約に基づき、有識者が施策を設計します。例えば、クラスタ毎の各特徴の変化例の基本統計量より、特定の特徴の変化例の中央値を確認し、これを元にKPIを設定します。そして、そのKPIを達成させるための施策を設計します。施策の数はクラスタの数と一致すると想定しています。
要約の手法としてクラスタリングを採用した理由を説明します。反実仮想説明において特徴の変化例の正負は重要です。それゆえ、要約の過程で、絶対値をとることや、単純に平均することは回避したいと考えます。そこで、反実仮想説明をクラスタリングします。これにより、要約のために基本統計量、特に平均値などを確認したとしても、反実仮想における特徴の正負が考慮されることになります。
このフレームワークにより、例えば生成したn件の反実仮想説明に対し、そのk件の反実仮想説明の要約が実現されます。そして、それに基づいて、施策の設計をすると、クラスタに特化した施策になります。これにより、クラスタに属する複数の人の意思決定の促進が期待されます。
提案手法の実装
提案手法の実装を紹介します。上述したフレームワークの要約までを対象とします。以下は提案手法をPythonの関数(summarize_cf
)として実装した例です。入出力は以下のとおりとします。
- 入力:DiCEにより生成される反実仮想説明群
- 出力:反実仮想の要約群(入力に対してクラスタ列が付与)
また、DiCEで出力されるクラス(CounterfactualExplanations
)を特徴の変化例で構成されるDataFrameに変換する関数(convert_to_diff_df
)も用意します。
from sklearn.cluster import AgglomerativeClustering def convert_to_diff_df(target_df, dice_exp): """ CounterfactualExplanationsをDataFrameに変換する。 """ diff_dfs = [] for i in range(len(dice_exp.cf_examples_list)): final_cfs_df = dice_exp.cf_examples_list[i].final_cfs_df test_instance_df = dice_exp.cf_examples_list[i].test_instance_df diff_df = final_cfs_df - test_instance_df diff_dfs.append(diff_df) diff_df = pd.concat(diff_dfs) diff_df.index = target_df.index.to_list() return diff_df def summarize_cf(diff_df, n_clusters): """ 複数の反実仮想を要約するためにクラスタリングし、クラスタ列を追加する。 """ cluster_df = diff_df.copy() agglomerative_clustering = AgglomerativeClustering(n_clusters=n_clusters) labels = agglomerative_clustering.fit_predict(cluster_df) cluster_df["cluster"] = labels return cluster_df
上記のスクリプトを含め、本記事で紹介するスクリプトおよび関連するスクリプトのリンクを最後に載せています。
提案手法の有用性の検証
想定するシナリオ
検証のために活用例として想定するシナリオを仮定します。補足としての概念図を以下に掲載します。
とある意思決定者群がいたとします。その群では“望ましい状態”になる傾向が高いか否かの2値で分類されるとします。それに加え、傾向は0〜1の範囲で確率としても表現が可能です。しかし、“望ましい状態”になる傾向が高いか否か、どうしたら“望ましい状態”になるのか、行動指針について当人たちは知りません。ただし、有識者に診断してもらうことで“望ましい状態”になるための助言を得たり、サポートを受けて、“望ましい状態”になる傾向を高めることができます。有識者のリソース(コスト)は限られており、診断の対象者が多くなるほど、双方にデメリットが生じます。そこで、提案手法を使うことにします。提案手法により、意思決定者群内の全員の状態を予測し、“望ましい状態”ではない意思決定者の反実仮想説明を生成し、それを要約します。その要約に対して、有識者と相談することで複数の意思決定の促進を目的としたひとつの施策の設計をします。また、シナリオの理解を容易にする目的で、有識者による診断コストと施策の設計コストを同一とします。診断コストと施策の設計コストはそれぞれ1とします。例えば、提案手法によりk件の施策を設計する場合、その施策の設計コストはk(1×k)となります。つまりk人の有識者が必要になるということになります。このシナリオは教育、医療、マーケティングなど様々な分野に当てはめることが可能です。是非、身近なドメインで読み替えてください。
つまり、以下の可能性が確認された場合、提案手法の導入が有用であったと判断できるとします。
- 意思決定の促進数に対するコストの削減
- 限られたコストの中での意思決定の促進数の増加
このシナリオに基づき、以下のリサーチ・クエスチョン(RQ)を設定し、これらの検証を通して有用性を確認します。
- RQ1:クラスタの数を増やすことによりひとつの施策において参考になる特徴の数は厳選されるか?
- RQ2:設計した施策は複数の意思決定を促進する可能性があるか?
提案手法の実施例
続いて、提案手法の実施例を紹介します。実行環境はGoogle Colaboratory*4、プログラミング言語としてPythonを利用します。まずはDiCEをインストールします。
!pip install dice_ml
DiCEで反実仮想説明を生成するために、以下2点が必要です。
- 学習データ/テストデータ
- 学習済みモデル
まず、学習データ/テストデータを用意します。今回はsklearn.datasets.make_classification
により、擬似データを生成します。説明変数は、feature_0、feature_1、feature_2…feature_19の20件、目的変数はlabel(1/0)とします。データ数は1,000件とします。
import numpy as np import pandas as pd from sklearn.datasets import make_classification from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split def generate_sample_df(feature_column_names, label_column_name, n_samples, n_classes, n_informative=10, n_redundant=5, n_clusters_per_class=5, random_state=123): """ サンプルデータを生成する。 """ n_features = len(feature_column_names) sample_classification = make_classification( n_samples=n_samples, n_features=n_features, n_informative=n_informative, n_redundant=n_redundant, n_clusters_per_class=n_clusters_per_class, n_classes=n_classes, random_state=random_state ) sample_df = pd.DataFrame(sample_classification[0], columns = feature_column_names) sample_df[label_column_name] = sample_classification[1] return sample_df feature_column_names = [ 'feature_0', 'feature_1', 'feature_2', 'feature_3', 'feature_4', 'feature_5','feature_6', 'feature_7', 'feature_8', 'feature_9', 'feature_10', 'feature_11', 'feature_12', 'feature_13', 'feature_14', 'feature_15', 'feature_16', 'feature_17', 'feature_18', 'feature_19' ] label_column_name = "label" n_samples = 1000 n_classes = 2 sample_df = generate_sample_df(feature_column_names, label_column_name, n_samples, n_classes) sample_df.head()
feature_0 | feature_1 | feature_2 | feature_3 | feature_4 | feature_5 | feature_6 | feature_7 | feature_8 | feature_9 | feature_10 | feature_11 | feature_12 | feature_13 | feature_14 | feature_15 | feature_16 | feature_17 | feature_18 | feature_19 | label | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | -6.1069 | 1.50221 | -0.920145 | 3.11483 | 0.517572 | 0.0664958 | 0.819485 | 8.26875 | -0.172542 | -1.63748 | 0.67169 | 0.1841 | -1.60933 | -1.30478 | 1.82454 | 0.272891 | 2.42674 | -1.60545 | 3.65572 | -2.57617 | 0 |
1 | 2.90556 | -2.39181 | -1.98608 | -0.291323 | 1.94349 | 0.609876 | -0.70765 | -0.493859 | 3.88505 | -3.80109 | -0.237092 | -11.1492 | -3.62402 | 4.17303 | 1.4179 | 1.71246 | 1.39182 | -1.27753 | -2.2001 | 2.04083 | 0 |
2 | 1.38131 | -2.23358 | 0.193688 | -2.10218 | 0.218239 | 1.67453 | -0.932348 | -4.75815 | 2.12282 | 0.527165 | 0.931531 | -1.12455 | -0.0708599 | -0.475601 | 1.79064 | 0.0427529 | -0.201005 | -1.14527 | -2.13361 | 0.40052 | 0 |
3 | -5.76885 | 1.44654 | -0.0165823 | 1.06346 | -0.348609 | -1.76193 | -0.236788 | -3.22219 | 0.408844 | 2.89314 | 0.830156 | 4.39721 | -0.584138 | -0.453076 | -0.296942 | -1.32787 | -0.0741044 | -3.36125 | -0.484488 | -1.93662 | 0 |
4 | 2.10656 | -0.528755 | -0.662955 | 0.217316 | 0.126619 | -0.501721 | -0.381227 | 3.60504 | -4.00343 | -1.6433 | -0.833339 | -0.451738 | -1.32528 | -1.19022 | -0.282072 | 0.902531 | 1.10312 | 1.17115 | -1.32348 | -0.249233 | 1 |
参考までに、生成した擬似データの基本統計量は以下のとおりです。
sample_df.describe()
feature_0 | feature_1 | feature_2 | feature_3 | feature_4 | feature_5 | feature_6 | feature_7 | feature_8 | feature_9 | feature_10 | feature_11 | feature_12 | feature_13 | feature_14 | feature_15 | feature_16 | feature_17 | feature_18 | feature_19 | label | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 | 1000 |
mean | -0.22679 | -0.356719 | -0.0218113 | 0.441077 | -0.0120808 | 0.0240415 | 0.00697184 | 0.692381 | -0.0892546 | -0.37842 | -0.0255278 | -1.12954 | 0.0680271 | 0.182109 | 0.865859 | -0.0673906 | -0.011046 | 0.329891 | -0.333647 | -0.555261 | 0.501 |
std | 4.65845 | 2.04645 | 2.09725 | 2.04333 | 0.98827 | 0.966302 | 1.02004 | 4.36257 | 2.0632 | 1.99052 | 1.02409 | 3.89122 | 2.2191 | 2.0807 | 1.85447 | 2.08003 | 1.0157 | 3.34635 | 2.24569 | 2.65902 | 0.500249 |
min | -14.6509 | -8.42079 | -8.04211 | -7.31673 | -3.70133 | -3.04058 | -3.42982 | -12.5212 | -8.91695 | -7.27698 | -3.51781 | -12.8647 | -7.272 | -6.03672 | -5.4566 | -6.25308 | -2.97349 | -10.4826 | -8.35191 | -9.11558 | 0 |
25% | -3.10476 | -1.65953 | -1.45208 | -0.883971 | -0.696745 | -0.578649 | -0.662017 | -2.13695 | -1.35213 | -1.74197 | -0.657473 | -3.71965 | -1.56645 | -1.16425 | -0.364591 | -1.45298 | -0.715649 | -2.01443 | -1.8739 | -2.40565 | 0 |
50% | -0.334114 | -0.450487 | -0.00115219 | 0.54274 | -0.015385 | 0.0260954 | 0.0292148 | 0.553981 | -0.0622885 | -0.392014 | -0.0357425 | -1.21894 | 0.0365768 | 0.328775 | 0.950246 | -0.226534 | 0.007382 | 0.239435 | -0.334767 | -0.533561 | 1 |
75% | 2.47047 | 0.925326 | 1.37644 | 1.82188 | 0.663336 | 0.64216 | 0.669061 | 3.55 | 1.15315 | 0.904647 | 0.66061 | 1.12373 | 1.64833 | 1.66251 | 2.02817 | 1.33499 | 0.673261 | 2.34194 | 1.19304 | 1.09123 | 1 |
max | 18.888 | 7.00507 | 6.92699 | 7.08935 | 3.34537 | 3.34539 | 4.52377 | 14.9244 | 6.84834 | 5.7327 | 3.20739 | 11.6939 | 6.81684 | 6.88055 | 6.63172 | 6.97343 | 3.26358 | 16.5605 | 8.1032 | 8.86344 | 1 |
続いて、学習済みモデルを用意します。ここまでで用意した擬似データを学習データとテストデータに分割します。そして、学習データをモデルに学習させます。採用したアルゴリズムはロジスティック回帰です。scikit-learn*5により実装されているものを利用します。
X = sample_df.drop(columns="label") y = sample_df["label"] train_x, test_x, train_y, test_y = train_test_split(X, y, test_size=0.2, random_state=123) model = LogisticRegression(random_state=123) model.fit(train_x, train_y)
ここまでで、DiCEで反実仮想説明を生成するために必要な「学習データ(train_x
、train_y
)/テストデータ(test_x
、test_y
)」と「学習済みモデル(model
)」の用意ができました。
念のため、学習済みモデルの精度を確認します。ある程度の精度が担保されているモデルでない場合、生成される反実仮想に対する信頼性が失われてしまいます。精度の検証は、あらかじめ一つのデータを学習データ/テストデータに分割したホールドアウト検証とします。評価値としてROC曲線、AUCを算出します。
import matplotlib.pyplot as plt import japanize_matplotlib from sklearn.metrics import roc_curve y_predict_proba = model.predict_proba(test_x)[:,1] fpr, tpr, thresholds = roc_curve(test_y, y_predict_proba) plt.plot(fpr, tpr) plt.plot([0, 1], [0, 1], 'k') plt.xlabel('偽陽性率') plt.ylabel('真陽性率') plt.title('ROC曲線') plt.legend(["学習済みモデル", "基準"] , bbox_to_anchor=(1.05, 1), loc="upper left") plt.grid() # plt.show()
ROC曲線を確認した限り、おおよそ問題のない結果であると判断します。
from sklearn.metrics import roc_auc_score auc = roc_auc_score(test_y, y_predict_proba) auc
0.8513649136892814
AUCは約0.85と算出されました。こちらもおおよそ問題のない結果であると判断します。ROC曲線、AUCより、モデルは信頼できるものだと判断します。本来はドメインに応じて評価することが望ましいです。もし、問題が考えられる結果だった場合、問題が解消されるまでやり直すことが望ましいです。これ以降、テストデータにおけるラベルは未知の結果であるため、使用しません。
今回は“望ましい状態”の人を増やしたいという動機で反実仮想説明を生成します。つまり、“望ましい状態”でないと予測される人を対象とします。
import dice_ml from numpy.random import seed seed(123) target_df = test_x.copy() y_predict = model.predict(test_x) target_df["label"] = y_predict pre_counter = target_df.query('label == 0') pre_counter = pre_counter.drop(columns="label")
続いて、DiCEにより生成される反実仮想説明群を生成します。
d = dice_ml.Data(dataframe = pd.concat([test_x, test_y], axis=1), continuous_features=[], outcome_name = "label", random_seed=123 ) m = dice_ml.Model(model=model, backend="sklearn") exp = dice_ml.Dice(d, m, method='random') dice_exp = exp.generate_counterfactuals( pre_counter, total_CFs= 1, features_to_vary=pre_counter.columns.to_list(), desired_class = 1, random_seed=123 ) diff_df = convert_to_diff_df(pre_counter, dice_exp) diff_df = diff_df.drop(columns="label")
反実仮想の要約群(入力に対してクラスタ列が付与)を生成します。
n_clusters = 10
summarized_cf = summarize_cf(diff_df, n_clusters)
summarized_cf.head()
feature_0 | feature_1 | feature_2 | feature_3 | feature_4 | feature_5 | feature_6 | feature_7 | feature_8 | feature_9 | feature_10 | feature_11 | feature_12 | feature_13 | feature_14 | feature_15 | feature_16 | feature_17 | feature_18 | feature_19 | cluster | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
203 | 20.4505 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 5 |
632 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -5.71025 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 6 |
461 | 0 | 0 | -3.75703 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -0.720825 | 0 | 0 | 0 | 0 | 0 | 1 |
924 | 0 | -4.99364 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -2.8706 | 0 | 0 | -6.7881 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 6 |
195 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -5.20829 | 0 | 0 | 0 | -5.71097 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 6 |
例えば、クラスタ1の要約(基本統計量)は以下になります。
target_cluster = 1 summarized_cf[summarized_cf["cluster"] == target_cluster].describe()
feature_0 | feature_1 | feature_2 | feature_3 | feature_4 | feature_5 | feature_6 | feature_7 | feature_8 | feature_9 | feature_10 | feature_11 | feature_12 | feature_13 | feature_14 | feature_15 | feature_16 | feature_17 | feature_18 | feature_19 | cluster | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
count | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 | 6 |
mean | 0 | 0 | 0 | -0.225622 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -0.929857 | 0 | 0 | -0.456884 | 0 | -9.41295 | 0 | -0.78332 | 1 |
std | 0 | 0 | 0 | 0.552659 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2.27768 | 0 | 0 | 1.11913 | 0 | 1.68538 | 0 | 1.91873 | 0 |
min | 0 | 0 | 0 | -1.35373 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -5.57914 | 0 | 0 | -2.74131 | 0 | -11.8436 | 0 | -4.69992 | 1 |
25% | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -9.95383 | 0 | 0 | 1 |
50% | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -9.60744 | 0 | 0 | 1 |
75% | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -8.8791 | 0 | 0 | 1 |
max | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | -6.71359 | 0 | 0 | 1 |
この要約に対して、例えば、中央値が0ではないcolumn_7はこのクラスタにおいて参考になる特徴であるという判断が可能になります。この判断からKPIとして意思決定者群のcolumn_7を7.721859(中央値)だけ変化させるなどという考案が可能です。
以上により、反実仮想の要約群が生成されます。続けて、予め設定した2つのRQに答える形式で、提案手法の有用性の検証をします。
RQ1:クラスタの数を増やすことによりひとつの施策において参考になる特徴の数は厳選されるか?
一般的に、参考になる指標の種類が少ないほど、比較的低いコストで、比較的高い精度での施策の設計が期待されます。提案手法では反実仮想をクラスタリングしてその要約を施策の設計の参考にします。この時、クラスタごとの要約で参考になる特徴が変化することが考えられます。つまり、クラスタリングによりひとつの施策において参考になる特徴が厳選されることが期待されます。またそのクラスタの数を増やすことによりより厳選されていくことが期待されます。これに対して、本当に厳選されているのかを確認します。ここでは、参考になる特徴の基準を広くします。クラスタにおいて、少しでも差が発生している特徴を指すこととします。逆に全く差が生じていない、基本統計量において、最小値と最大値が0の場合は参考になる特徴ではないとします。
縦軸が「参考になる特徴の数」、横軸が「クラスタの数」です。上記のグラフより、大まかにクラスタの数の増加に伴って、各クラスタにおける参考になる特徴の数が減少傾向にあることがわかります。つまり、クラスタリングによりひとつの施策において参考になる特徴の数は厳選されることがわかります。そしてクラスタの数を増やすことで、参考になる特徴の数はより厳選されることがわかります。各クラスタにおいて対応すべき問題が単純になっていると考えられます。つまり、比較的低いコストで、比較的高い精度での施策の設計が期待されます。
この結果が見られた原因として、クラスタリングにより各クラスタにおけるレコードの数の減少が予想されます。参考までに「クラスタの数の変化に伴う各クラスタに属するレコードの数の変化」を確認します。
予想通り、クラスタの数が増えるに伴い、レコードの数が減少しています。
これにより、提案手法により、比較的低い労力で、比較的高い精度の施策の設計が期待されます。
RQ2:設計した施策は複数の意思決定を促進するか?
次に設計した施策が複数の意思決定を促進するかを確認します。現在の手法では施策の質については有識者の力量次第であり不確実な情報です。それゆえ、シミュレーションを設計し、これに基づき検証をします。シミュレーションにおける施策の設計方法を以下のように定義します。
- 施策の設計方法
- 反実仮想の要約より参考になる特徴の条件は「中央値が0ではない」と設定
- 複数に絞り込まれた参考になる特徴からt件をランダムに選択
- 施策による特徴の変化量は反実仮想の要約より中央値と変化率cを掛け合わせた結果と設定
- 各意思決定者に対して成功率pで施策が成功(特徴が変化)
上述した条件に従い、シミュレーションを実施します。シミュレーションでは施策の質を変化させて結果を確認します。シミュレーションにおける施策の質を表現する要素(パラメータ)とそのデフォルトとする基準値は以下の通りです。
- 参考になる特徴の数(基準値:1)
- 施策の成功率(基準値:0.5)
- 施策の特徴の変化率(基準値:0.5)
シミュレーションの理解を容易にするために、施策と比較するための有識者による診断の定義を「確実に“望ましい状態”に変化させること」と設定します。施策に対する診断の質の高さを表現しています。
はじめに、参考になる特徴の数の変化に伴う意思決定が成功した件数の変化を確認します。以下に可視化した結果を示します。
縦軸が「意思決定が成功した数」、横軸が「クラスタの数(有識者・施策の数)」です。参考になる特徴の数を変化させて描画させています。また比較対象として「有識者による診断(基準)」をも描画します。参考になる特徴の数を1から3まで変化させたものの、結果は全て変わらず、重なりました。クラスタの数の変化により意思決定が成功した件数が上昇していますが、今回の条件では有用になる場合がないことがわかります。
続いて、施策の成功率の変化に伴う意思決定が成功した件数の変化を確認します。以下に可視化した結果を示します。
以下の条件で基準以上になっています。
- 成功率が0.6(クラスタの数が3〜8)
- 成功率が0.7(クラスタの数が3〜11)
- 成功率が0.8(クラスタの数が3〜16)
- 成功率が0.9(クラスタの数が3〜16)
- 成功率が1.0(クラスタの数が2〜16、18、20)
これは、今回の条件で、有用になる場合があることがわかります。
最後に、施策の特徴の変化率の変化に伴う意思決定が成功した件数の変化を確認します。 以下に可視化した結果を示します。
以下の条件で基準以上になっています。
これは、今回の条件で、有用になる場合があることを意味します。
以上より、条件によっては基準、つまり診断以上の効果が見られるという結果となり、提案手法が有用である可能性を確認しました。具体的には同一コストで意思決定の促進が成功した件数が1〜16件(特徴の変化率が1.0/クラスタの数が8の場合)だけ増加しました。これは、言い換えると、同じ数の意思決定の促進を成功させるために必要なコストが1〜16件(特徴の変化率が1.0/クラスタの数が8の場合)だけ減少したことを意味します。つまり、「設計した施策は複数の意思決定を促進するか?」の回答として、「是」である可能性が示唆されました。
以上より、提案手法の有用性が確認されました。
今後の課題と展望
今後の課題と展望について紹介します。最も課題だと感じている、今後の実施が望ましいこととしてより詳細なシミュレーションの設計、もしくは実証実験が挙げられます。有用性の検証では、シミュレーションを実施しましたが、本来の問題はより複雑で、不確実な点があります。また、施策の質を表現する数値も仮に設定したものです。これらは実社会との差があると考えられます。それゆえ、より詳細なシミュレーションの設計が必要になります。もしくは、提案手法を社会に実装した際、それが本当に有用なのかを検証する必要があります。特に提案手法における反実仮想の要約を有識者に伝える際、それが使い物になるのかの検証は大事です。ドメインによって新たな課題も浮かび挙げられます。以上より、実証実験の実施をしたいのですが、これ以上の個人での実施は難しいため、諸々考える、工夫する必要があります。他にも反実仮想の要約から施策を設計する段階についての議論も必要です。そして、設計する施策の評価についての議論も必要です。
本記事のまとめ
本記事では、複数の反実仮想説明に基づく複数の意思決定の促進を目的としたひとつの施策の設計を支援する手法を提案しました。そして、仮に設定したシナリオに基づくシミュレーションにより有用性を検証しました。その結果、提案手法が対象とする特定の条件において、「複数の意思決定の促進を目的としたひとつの施策の設計を支援する」という点での貢献が期待できます。
本記事は追記、修正する可能性があります。ご了承ください。もし意見、質問、指摘などがあれば、以下に記載されている連絡先に連絡をいただけるととても嬉しいです。
本記事に関するスクリプトは以下で公開しています。