データサイエンス概論

数学の苦手を克服してデータサイエンスに挑戦!学習すべき内容とは?

「今まで数学が苦手で避けてきたけれど、最近トレンドのデータサイエンスを活用してビジネスで活躍したい!」

「数学は得意じゃないけど、機械学習、AIを取り扱うデータサイエンティストになりたい!」

本記事では、このような方へ向けてデータサイエンスと数学との関係や、必要となる数学知識習得までのロードマップなどを紹介します!

1.データサイエンスとは

「データサイエンス」とは、統計学、機械学習や人工知能(AI)、データ分析など、色々な領域の手法を組み合わせて、蓄積された大量のデータから価値を引き出す研究分野です

大量のデータの中から、企業や私達の生活にある様々な課題解決につながる価値を発見し、アクションにつなげる役割を果たします

2.データサイエンスと数学との関係

データサイエンスは次のようなプロセスでデータを解析していきます。

①ビジネスの理解と課題の定義

まずは、対象となるビジネスを理解することから始まります。そして現在抱えている、解消するべき課題を定めます。ここが明確になればなるほど、「どのようなデータを収集するべきなのか」「集めたデータをどのような切り口で加工するべきなのか」という様にデータを取り扱う後続のプロセスでの道標となります。

②データマイニング

収集された大量のデータから、どのデータに注目して使えるように加工していくのか、を定義し、対象となるデータを探し当てる工程となります。

マイニングとは「掘り当てる、採掘する」という意味ですが、「埋まっているかどうかわからないダイヤモンドの原石を掘り当てる」というよりは、「広大なジャングルの中から美味しい果実のなっている木を探す」というイメージで、「必ず存在するが、使い道のない不要なデータや不完全なデータの中に埋もれている、求めているデータを探し出す作業」となります。

データマイニングには2種類あります。このプロセスでは数学の知識、特に分析手法が関係してきます。

データマイニング①仮説検証型

探し出すデータが定まっており、例えば購入される商品の量やお客さんの反応を推測したり、そのためにお客さんを分類したりするものです。ここでは「回帰分析」「クラスタリング」という分析手法が用いられます。

データマイニング②知識探索型

探し出すデータが定まっておらず、与えられたデータからルールやパターンを見つけ出していくものです。「アソシエーション分析」という分析手法が用いられます。

これらの手法を用いて、データの中に隠れている一連のルールを式として表現した「モデル」を作成します。モデルを参照して予測を生成していきます。

③機械学習

機械学習とは、データの予測や分類を行うためのモデル作成を、機械(コンピュータ)によって自動的に行う技術です。機械に作業をさせようとするならば、今までは人間が機械に対して毎回命令を与える必要がありました。しかし、機械学習と言われる分野では、機械が自分で膨大なデータを読み込み、機械自らがルール、パターンを学習していきます。

機械学習はAI(人工知能)が支えており、「統計学」「線形代数」「微分積分」といった分野の数学知識が関係してきます。

お気づきかもしれませんが、機械学習は前述したデータマイニングと類似しています。データマイニングは主に人間が行うのに対し、機械学習はその名の通り機械が行います。しかし全くの別物ということではなく、データマイニングにより明らかにされた過去のデータ分析結果を、機械に学習させて将来の予測を算出する、といった併用活用をすることもできます。

④課題解決手段の可視化とアクション決定

企業やビジネス上で抱えている課題に対して、データの中から解消に有効となり得る価値ある情報を「データマイニング」と「機械学習」によって見つけ出すことができました。

得られた価値ある情報を活用して、課題解消手段を立案し実際のアクションに落とし込んでゆくプロセスです。データサイエンスの本来の目的は、課題を解決し、企業活動や我々の生活をより豊かで便利、活発にしていくことにあります。

3.データサイエンスに必要となる数学の分野

データサイエンスに必要な数学の分野として、以下の4つが挙げられます。

①確率・統計学

確率・統計学は、データの持つ性質を調べて活用目的に応じてデータを分析するときに使われる学問です。大量のデータを扱いやすく分類整理することはデータサイエンスにとっては最重要なプロセスとなり、確率・統計の数学知識は必須のものとなります。

データマイニングのところで紹介した「回帰分析」「クラスタリング」「アソシエーション分析」もこの分野に含まれます。

②線形代数

線形代数の中でも、特に「行列」が重要となってきます。行列とは「同一の性質を持つ情報の要素を縦×横に並べたもの」であり、データの取り扱いが意味のあるかたまりとして表現できるので取り扱いが用意になり、数値化することで機械(コンピュータ)が計算できるようになるのです。

③微分積分

微分積分を理解できていれば、機械学習において「ある値が最小(最大)になる部分を計算することができる」様になります。

例えば微分とは、現在の状況がどのくらいの速さで変化をしているのか、または変化をしていないのか、を数値化して表現することができます。このことを利用して、将来どのような変化をしてどのような数値になるのか、最小の値、最大の値はどの様になるのか、を詳細に予測することができます。モデルを作成において最小と最大が求めることが強いモデルを作成できることに繋がります。

④最適化理論

最適化とは、制約がある中で、複数の選択肢の中から一番効果の高い組み合わせを決めることです最適化理論として有名な「ナップザック問題」がありますが、「容量の決まっているナップザックに、値段の違ういくつかの品物を詰め込み、その価値を最大化する」という最適化問題です。

私達の日常生活の身近なところでの活用例は「電車の乗り換えルート検索」が挙げられます。A地点からB地点まで行くいくつかの電車ルートがある中で「一番早く到着する」「乗り換え回数が一番少ない」「料金が安い」など、一番効率よくたどり着けるルートを検索するときに、この最適化理論は使われています。

「一番早いが料金も一番高い新幹線」が常に選択されるということではなく、「課題を抱えている人にとっての一番の最適解」を見出す事が重要になります。

4.数学の苦手を克服してデータサイエンスに挑戦するロードマップ!

データサイエンスに必要となる数学知識を説明してきましたが、「数学が苦手だ」「未経験で1から学習を始める」という方には下記のステップで学習することをおすすめします。

ステップ1 線形代数と微分積分を、入門レベルの参考書で学ぶ

ステップ2 確率・統計学の全体概要を学ぶ

ステップ3 最適化理論を学ぶ

「線形代数」と「微分積分」は、「確率・統計学」の説明で使われます。そのため、ステップ1とステップ2は、一度で完璧に理解しようとせずに何度も行き来しながら学習を進めましょう。

「最適化理論」に関しては、勉強しておくと機械学習の理解に役に立ちます。データサイエンスの中で機械学習分野に進みたい方は、ぜひここまで学習することをおすすめします。

5.数学の苦手を克服してデータサイエンスに挑戦するための学習方法

各ステップでは、下記の書籍やWebで学習されると良いでしょう。

ステップ①線形代数・微分積分

 線形代数キャンパス・ゼミ 改訂9 マセマ出版社 

線形代数キャンパスゼミ引用:『線形代数キャンパス・ゼミ 改訂9』

マセマ出版社の参考書は、出版社HPのフレーズ「数が苦を数楽に変える」のとおり、数学を苦手としている方や初学者に非常におすすめできる参考書シリーズです。

図解も豊富にあり、解答解説の途中式を省略することなく丁寧に解説してくれています。

ステップ②確率・統計学

完全独習 統計学入門 ダイヤモンド社

完全独習統計学入門引用:『完全独習 統計学入門』

こちらの書籍は、統計学という数学の本ながら、数学記号や数学公式を極限まで使用せずに書かれており(使っているのは中学数学のみ)具体例を交えながら、なぜそうなるのかを教えてくれます。

統計Web

統計WEB引用:『統計Web』

こちらは書籍ではなくWebメディアです。Step0からStep3までの章立てになっており、Step0と1まで学習を進めることで、大学で学ぶ統計学の基礎レベルとなる「統計検定2級」の範囲をカバーできる充実度となっています。

数式だけでなく具体例を交えて解説されており、演習問題にもすぐに取り組む事ができるので、前述の「統計学入門」と合わせて非常にオススメです。

ステップ③最適化理論

これなら分かる最適化数学: 基礎原理から計算手法まで 金谷健一

これなら分かる最適化数学引用:『これなら分かる最適化数学』

2005年出版の少々古い本ですが、現在でも高い評価を受けている書籍です。筆者本人も書籍内で述べていますが、同じ内容の例題が繰り返し解説されており、数学が苦手な方、初学者が基礎から最適化理論を学ぶにはまさに最適化されている内容です。

まとめ

コンピュータテクノロジーの発達とともに、今まで人間が行ってきた仕事はどんどんコンピュータに取って代わられる時代に突入しています。その代表格として語られるAI(人工知能)の構築には、データサイエンスの営みが欠かせないものになっています。

世の中のビジネス解決には、現在でも人間の最終決断は欠かせませんが、データサイエンスによって解決手段を可視化できる人材になることができれば、コンピュータに取って代わられることなく、逆にコンピュータを使いこなせる希少価値のある人材になることができます。

この記事に記載したロードマップをもとに、ぜひ数学知識の習得にチャレンジして、データサイエンスの世界に飛び込んできてください。