データサイエンス概論

データサイエンスをやってみたい!!データサイエンスに必要なスキルとは?

そもそもデータサイエンスとは? 概要についてご紹介します。                      

データサイエンスとはデータ収集や、データから利用価値の高い情報を抽出する原理と方法をまとめた用語です。データサイエンスを利用することで、慣習や勘では解決できなかった問題解決の方法を、自動的に発見することができます。

次に情報の抽出原理と方法について紹介します。

情報の抽出とは、データの傾向からパターンやモデルを作成することです。

これまでは統計学やスコアリングなどの手法が一般的でしたが、近年ではディープラーニングや機械学習が注目されています。

特にディープラーニングは人の脳細胞(ニューロン)を模したプロクラムが、自動的に収集したデータを学習することで、人間では発見できなかったデータの傾向を見つけられる方法です。しかし、上記で紹介した事例はあくまで方法です。

データを抽出した後は、パターンやモデルの評価と修正を人間が行い、モデルを評価する必要があります。例えば、作成したモデルを用いて正解が分かっているテストデータを分析する方法です。

このとき、答えが一致した場合はモデルが完成したとして、実際のデータ分析を行います。一方、答えが一致しない場合はモデルの再構築と評価を繰り返します。

データサイエンスを学ぶ前に必要なスキルは?

データサイエンスは様々なIT分野の知識を複合的に使用するため、データサイエンスを学習する前に、ある程度必要とされるスキルがあります。この項目では事前に身に着けた方が無難なスキルとして、以下の四つを紹介します。

・ITリテラシー(基本情報技術者程度)
・基礎英語能力(高校3年生レベル)
・基礎数学能力(大学学部1・2年レベル)
・プログラミングスキル

1.ITリテラシー(基本情報技術者程度)

データサイエンスにおいてPCスキルがあることは前提であり、一通りの作業は行える必要があります。昨今ではオープンソースソフトウェアを使用してデータを解析することが多くなっているため、ソフトウェアのエラーや不明点があっても自分で解決できる能力が必要です。この能力が無いと、スタート地点に立つことができません。

IT関係の専門用語や各種システムの原理の理解も必須です。国家資格の一つである基本情報技術者程度の知識が無いと、解説書や参考サイトを読み進めるのに苦労するでしょう。一行ごとに知らないワードが出てくるような状況では理解も進みませんので、状況に応じて、基本情報技術者の勉強をお勧めします。

2.基礎英語能力(高校3年生レベル)

解析に利用するソフトウェアの説明文やデータサイエンスの最新論文は、主に英語で記述されます。プログラムのエラー文も英語であるため、内容を理解するためにも最低限の英語能力は必要です。

英語力に自信が無い人はTOEICのテキストなどを利用して勉強しておきましょう。専門用語はありますが、技術系の英語であるため、複雑な構文は使用されません。大学受験を行った方々なら特に学習の心配はないと思います。

3.基礎数学能力(大学学部1・2年レベル)

データを扱う以上、数学の知識も必須です。特に統計や確率分野は大枠でも良いので理解する必要があります。ただし、英語や後述するプログラミングスキルと異なり、数学ができないからと言って、データサイエンスが始められないことはありません。データサイエンスと並行して数学も勉強することをお勧めします。

4.プログラミングスキル                                                

大量のデータを扱うにはプログラミングの力を借りることが一般的です。自分でデータサイエンスを行わないならば、プログラミングの知識は不要ですが、どのようなスキルが必要か把握しておいた方が無難です。

プログラミング言語としてはPythonが主に使用されています。Pythonはコードが分かりやすいことに加えて、特定のプログラムがセットになっている『ライブラリ』が豊富です。ライブラリを使用することで、最低限のコード量で多様なデータ処理を行うことができます。

Pythonのメリットの一つとして挙げられるのが、人気と使用人数の多さです。プログラミング言語において使用人数が多いことは圧倒的なメリットとなります。

何故ならば、世界中の人たちがバグやエラーの修正方法をインターネット上で公開しているため、プログラムの修正に手間取ることが無いからです。エラーが発生したとしても、エラー文章をGoogle検索すれば、すぐに解決方法が見つかるでしょう。

データサイエンスにより身につくスキルとは

データサイエンスを学ぶことで、次の4つのスキルが身につきます。

・データに基づいた思考法
・データ処理技術
・プログラミングの技術
・データ処理をするビジネスの理解

1.データに基づいた思考法

データに基づいた思考法は現代において非常に強力です。これは自分が行おうとしている方針が正しいのか客観的に判断することができますし、自分のステークホルダーを論理的に説得することができます。決断は重要になれば重要になるほど決まりにくく、各人の利害が対立します。

データサイエンスを用いれば、人間の感情に引っ張られることなく自分が提案する方針の正当性を主張することができ、業務方針を迅速に決定することができます。

2.データ処理技術

一度データサイエンスを学習すれば、データ収集や加工技術を身に着けると同時に、データ処理の『目』を身に着けることができます。データサイエンス学習後は、これまで見逃していた、会社のあらゆるデータについて活用方法が思いつくはずです。

例えば、これまで統計を取ってこなかった見積金額や調達コストを、メーカー毎に分析することは簡単なはずです。資料が紙ベースしかないときも臆することはありません。スキャナーでPDF形式に取り込めば、プログラミングによる文字認識を使用して、あっという間にリスト化することも学べます。

また、昨今話題となっているWebスクレイピング技術も身につけることができます。Webスクレイピングとはインターネット上のデータを自動的に収集する技術で、日夜変化する為替レートや材料費の最新情報を常に知ることができます。少し工夫をすれば、自分が使用する情報を、毎日Excelファイルに取り込むことも可能です。

3.プログラミングの技術

Pythonを勉強した場合はPC操作の自動化へも応用できるため、通常業務の効率化も達成できるでしょう。データサイエンスでは得られた結果を図表にまとめて関係者に報告します。図表はデータサイエンスに関わらず、会計報告や経営計画、単なる集計にも使用するので、日常のあらゆるシーンにおいて、データサイエンスで得たプログラミングの知識が使えます。

4.データ処理をするビジネスの理解

データサイエンスは単なるデータ処理では無く、目的を得るために有効な傾向や特性を見つける作業です。ビジネスにおいて役立つ傾向を見つけるためには、複数回の試行錯誤が必要ですが、試行錯誤の度に自分の業務理解を深めることができます。データ処理技術を駆使して、有効な傾向を探すうちに、自分の業務におけるキーポイントが見えてくるはずです。                                                                

データサイエンスを学習するおすすめの方法

百聞は一見に如かず。データサイエンスも同様で、簡単なデータを使用してデータ処理を行ってみましょう。データサイエンスは経験が重要なので、基礎力を固めるよりも実戦した方が得るものが多いでしょう。ITリテラシーや数学の基礎力は並行して勉強すれば十分です。

データサイエンスを学習するためには、目的を考えなければなりません。データ処理方法は数多くありますが、処理対象によって最適な方法が異なります。ここではいくつか想定されるパターンごとにデータサイエンスの学習方法を紹介します。

1.複数のパラメータから、結果を得たい場合:重回帰分析

一つの評価結果を得るために使われる方法です。結果をy、パラメータをx、パラメータの重みをwiとすると結果yは、次式で示されます。なお、重みは人間が設定する必要があります。

y = W1×X1+W2×X2+W3×X3+W4×X4……+Wi×Xi

 

重回帰分析方法はExcelに関数があるため、試しに分析するにはうってつけです。以下、筆者も勉強したことがある参考サイトのURLを載せておきますので、興味ある方は見てみてください。

2.画像認識、言語認識:ディープラーニング

手元の画像に移っているのはネコか?犬か?を判断したり、文字を認識するためにはディープラーニングが広く使用されます。ディープラーニングは脳のニューロンを再現したデータ処理モデルで、人間がもつ判断の曖昧さを再現することができます。

ディープラーニングはニューラルネットワークと呼ばれる処理モデルを多重に拡張したモデルで、『ディープ』と呼ばれる理由は、ニューラルネットワークが幾重も積みあがっていることを示しているためです。ニューラルネットワークは重回帰分析に使用した下記の数式を、複数のパラメータに適用したモデルです。

y = W1×X1+W2×X2+W3×X3+W4×X4……+Wi×Xi

ディープラーニングでは正解が分かっている『教師付きデータ』を用意することで、モデルが自動的に重み付けを行ってくれます。

教師付きデータとディープラーニングのサンプルとして有名なものに『MNIST』のデータセットがあり、手始めに学習するならばこちらをお勧めします。MNISTは0〜9の手書き数字画像のデータセットで、訓練データとして6万枚、モデルテスト用データとして1万枚が無料で公開されています。

以下、MNISTのデータセットを利用したディープラーニングの方法を紹介したサイトを載せておきます。

データサイエンスを学習した後に求められるスキルは?

データサイエンスを学んでも、実際に使用できなければ意味がありません。この項目ではデータサイエンス学習後に必要となるスキルを解説します。

1.マネジメントスキル

データサイエンスをビジネスで使用するには、チーム作業になることが殆どです。そのため、仲間のスキルレベルに応じて仕事を割り振ったり、適切な評価を行うマネジメントスキルが必要となります。重要なプロジェクトになると人数も増えますので、円滑なコミュニケーションが行えることも必要です。

2.ネットワーク、クラウドスキル

データが膨大になるほど、1つのPCでは作業できなくなるため、分散コンピューティングやGPUクラウドコンピューティングと言われる方法が必要です。技術者ではない限り、これらの技術に成熟している必要はありませんが、詳しくなれば大きな武器となるでしょう。

まとめ

データサイエンスに必要なスキルと、データサイエンスを学ぶために必要なスキル、データサイエンスによって身に着くスキルをまとめました。

端的に言うと必要なスキルはITリテラシーや数学力で、身に着くスキルはデータに基づいた思考法でした。

データに基づいた思考法は、データが増えるこれからの時代に増々重要となるため、学習できれば大きな武器になるでしょう。