使える統計モデル10選（後編）

前回の記事では、使える統計モデル10選の前編として、主に回帰モデルに焦点を絞って紹介しました。

今回はその後編に当たる生成モデル編です。生成モデル（generative model）は、端的に言うと、コンピュータシミュレーションによりデータを人工的に作ることができるモデルです。データが作られる過程をうまく表現したモデルを構築することができれば、予測だけではなく異常検知やデータ圧縮など幅広いタスクに応用することができます。

1 生成系（教師なし系）
2 生成モデルと計算コスト
3 モデルをどのように評価するか
4 まとめ

生成系（教師なし系）

回帰モデルと同様、生成モデルも数個のパラメータから構成される簡単なものから、複数のモデルを巧みに組み合わせた複雑なものまで無限に存在します。ここでは、データ圧縮から自然言語処理、ソーシャルネット解析までさまざまなデータ解析のタスクで利用されている代表的な生成モデルを5つ選んで紹介します。また、生成モデルのすべては潜在変数モデル（latent variable model）の一例となっています。

ここでは正確な議論を省いて、生成モデルの仕組みを簡単に解説します。図1は生成モデルの概念図です。生成モデルは、確率分布（probability distribution）と呼ばれるランダムな数値を出力する仕組みを組み合わせることによって構築されます。図の例では、左側の学習前のモデルは確率分布がまだ学習されていないため、乱雑なノイズのみしか生成できていません。大量の画像データをモデルに学習させることによって、背後にある確率分布が適応的に変化し、結果として右側のようにモデルがデータの生成過程を獲得します。

前回紹介した回帰モデルと同様、データに対してどのようなモデルを利用するかは分析者に依存します。同じ学習データに対しても、与える生成モデルが変われば結果の解釈や解決可能な問題の種類が変わっていきます。生成モデルに関しても、あらゆるデータに潜む生成過程を完全に抽出できるような万能なモデルは存在しません。したがって、ここでも解析の目的やデータの特性に応じて、適切な生成モデルを選択または設計する必要があります。

行列分解モデル

行列分解モデル（matrix factorization model）は非常に用途の広い教師なし学習モデルで、データの非可逆圧縮や、特徴的なパターンの抽出などに用いられます。

ここでは音声データに対して行列分解モデルを適用し、パターン抽出を行う事例を見ていきます。図2の中央のグラフは７秒程度のオルガンの演奏を録音した音声データに対して、高速フーリエ変換（fast fourier transformation）による周波数解析を行ったものです。簡単に言うと、横方向の軸が経過時間を表し、縦方向が周波数の強さを示しています。例えば、音声データの最初の方では低周波の成分（0～2,000Hz）が強くなっており、後半ではやや高周波の成分（2,000～15,000Hz）が登場していることがわかります。これは前半で低い音の和音を弾き、後半で高い音の和音を弾いたためです。

図2には、行列分解手法の１つである非負値行列因子分解（nonnegative matrix factorization）を適用した結果も同時に示しています。元々のオルガンの演奏データが、図中の（a1）、（b1）、（a2）および（b2）に分解されています。（a1）や（b1）は、分解によって得られた「和音」を表現しているといます。（a1）には高周波の和音、（b1）には低周波の和音が抽出されています。（a2）や（b2）は、それぞれの和音が押されたタイミングを表しています。（a2）を見ると高周波の和音が演奏データの後半の方に登場してくることがわかります。同様に、（b2）では低周波の和音が前半に登場していることがわかります。

このように、行列分解は元々のデータに対するよりコンパクトな表現（コード）を抽出することによって、データの圧縮を行ったり、データに潜む典型的なパターンを抽出することに利用できます。類似の手法としては主成分分析（principal component analysis）、因子分析（factor analysis）、k平均法（k-means clustering）、ベクトル量子化（vector quantization）などが存在し、それぞれこのような「コード化」を行うための数学的前提が異なるモデルになっています。

混合モデル

混合モデル（mixture model）は、複数個の異なるデータの生成過程を組み合わせて表現するための手法です。主にデータを分割するクラスタリング（clustering）や回帰予測に用いられます。

例えば図3の左側のような散布図で表現された２次元のデータがあったとします。クラスタリングの目的は、このデータの集合に対して、ある「まとまり」を自動的に抽出することです。図3の右側では、このデータに対してガウス混合モデル（Gaussian mixture model）を利用してクラスタリングを行ったものです。この図のガウス混合モデルでは、3つの異なる生成過程が仮定されており、それぞれの生成過程はガウス分布（Gaussian mixture model）あるいは正規分布（normal distribution）によって表現されています。

混合モデルのアイデアは回帰モデルにも利用することが可能です。図4は、前回記事で紹介した線形回帰モデルに対して混合モデルのアイデアを組み合わせたものです。複数の直線を仮定することによって、自動的にデータのクラスタリングと、それに応じた適切な予測が得られています。前回解説した階層ベイズモデルによる回帰と似ていますが、こちらの混合回帰モデルは、データの１つ１つがどちらのクラスに所属しているかの情報を与えなくても、データから推測できる点が異なっています。

状態空間モデル

状態空間モデル（state space model）は、主に時系列データの解析に用いられます。

典型的な使用例としては、移動物体の位置推定があります。移動物体の位置はGPSなどを利用して測地することができますが、測定値は常に誤差を含んでいると考えられます。状態空間モデルでは、移動物体の真の位置を、直接観測できない状態（state）と考え、その状態にノイズが付加されて観測データが得られていると仮定します。また、真の状態は、一時刻前の状態に依存して決定されるように仮定されます。これは例えば「移動物体は急峻に別の位置へワープすることはないだろう」という仮説などに基づいて設計されます。

図5は状態空間モデルの一つである線形動的システム（linear dynamical system）と呼ばれるモデルを使って物体の位置推定を行った例です。青●で示されているのが実際に観測された位置データの軌跡です。それに対して、線形動的システムを使って観測ノイズの成分を取り除いた結果が赤×で示されている軌跡です。観測データに存在するブレが軽減され、滑らかな推定結果が得られていることがわかります。なお、このような線形動的システムによる推定は、 カルマンフィルタ（Kalman filter）として知られるアルゴリズムの一般化になっています。

状態空間モデルは、状態が離散の値を取る場合は特に隠れマルコフモデル（hidden Markov model）と呼ばれます。隠れマルコフモデルは、時系列データの将来予測はもちろん、時系列データのクラスタリング（分割）にも用いられます。図6は隠れマルコフモデルを用いて、長さが250の時系列データを分割した例です。観測データの値に応じて、データがそれぞれ３色で表される３種類の領域に分割されていることがわかります。このような時系列解析は、データの変化点検知や異常検知、数値の将来予測などに用いることができます。

トピックモデル

トピックモデル（topic model）は自然言語で書かれた文書を解析するためのモデルで、文書を意味内容を抽出することができます。応用事例としては、ニュース記事の分類・推薦や、類似文書の検索などがあります。最もシンプルなものにLDA（latent Dirichlet allocation）があります。LDAでは、文書に対して潜在的なトピック（政治、スポーツ、音楽など）が背後に存在していると考え、そのトピックに基づいて文書中の単語の出現が決まってくると仮定します。

図7はLDAを使って文書の解析を行った結果です。上に並んでいるArts（芸術）やBudgets（予算）は、大量の文書データをLDAによって解析することによって自動抽出されたトピックです。例えば、ArtsにはNEW（新しい）やFILM（映画）、MUSIC(音楽)などの単語が良く使われる傾向にあることを示しています。その下にあるのは、実際に解析した文書の一部です。１行目を見ると、Foundation（財団）という単語が緑色のBudgetsに分類されていることがわかります。

図7　LDAによる文書解析[Blei DM, Ng AY, Jordan MI, 2003]

トピックモデルは様々な拡張が提案されてきており、自然言語処理に携わっていないデータサイエンティストでもアイデア収集のために極めて有用です。標準的なLDAは、単語の前後のつながりを考慮していない単純なモデルになっていますが、時系列モデルのアイデアを組み合わせることにより、単語間の依存関係を考慮したモデルへ拡張することも可能です。また、文書に対するメタ情報（筆者や執筆年など）を盛り込んで解析するようなモデルもあります。

確率的ブロックモデル

確率的ブロックモデル（stochastic block model）は、ネットワークを解析するために用いられるモデルです。例えば、SNSにおける友達関係のつながりなどが解析対象になります。確率的ブロックモデルを用いれば、つながりのネットワークの中からコミュニティ（クラスター）を発見したり、つながりを予測することによって友達候補を推薦することなどができます。

ネットワークは、ノード（点）とエッジ（線）から成り立ちます。ソーシャルネットワークの例では、ノードはユーザー、エッジは友達関係を示します。図8ではそのようなネットワークデータから、自動的に３つのクラスターを抽出した結果になっています。