データサイエンティストとは

Python 統計学

【データサイエンス】データサイエンティストとは?環境構築まで

 

この記事でわかること

  • データサイエンティストとは?
  • データサイエンスに必要なもの
  • 環境構築のやり方

 

皆さん初めまして。
24歳データアナリストのりゅうと申します。

僕は2020年に新卒でフリーランスとなり現在は個人事業主として複数社と契約しております。

週7で働く中でなんとかスキマ時間を作り、データサイエンスの勉強を始めようと思い立ちました。
当ブログはその作業の流れと練習で使ったコーディングを簡単にメモするためのものです。

もしどなたかのお役に立つことが出来ればこの上ない幸せです。

※データサイエンスの参考書として下記のものを使用しております(以下参考書と呼称します)

東京大学のデータサイエンティスト育成講座

データサイエンティストとデータアナリストの違い

よく言われる両者の違いは以下です。

データアナリスト:今のデータを取得・整理・可視化
データサイエンティスト:将来の予測モデルを作成・機械学習

僕らデータアナリストはSQLというプログラミング言語のようなものを用いてデータを取得し、それをスプシなどにまとめるのが仕事です。

PDCAでいうC(チェック)を行ってA(アクション)の決断の手助けをするイメージといったところでしょう。

それに対して、データサイエンティストはP寄りなのかなと個人的に思っています。

結局データサイエンティストとはどんな人なの?という問いに対して、この本(上記の参考書)では以下のように定義しています。

ビジネスの課題に対して、統計や機械学習(数学)とプログラミング(IT)スキルを使って、解決する人

ポイント

  • データアナリスト:過去や現在のデータを取得・整理・可視化する
  • データサイエンティスト:機械学習などで将来の予測モデルを作成

データサイエンティストに必要なもの

本書の導入部分を読んでみたところ以下のものが必要になりそうです。

- Pythonの知識
- Pythonを書き込む環境(本書では「Jupyter Notebook」というもの)
- 統計学の知識

まずはプログラミング言語Python。

これは覚えながら頑張っていきますが、いきなりエンジニアレベルを目指すのではなく、まずはモデルが作成出来るところから始めるくらいの感覚でとりかかるのがいいようです。

次に、Pythonを書き込む環境。今回はJupyterNotebookというものを使います。

プログラミング言語は、コンピュータ語と人間の言語の中間的存在なのです。

決められたホワイトボードのようなものがコンピュータ内に存在し、そこにプログラミング言語を書き込むことで、機械が意味を理解してそれ通りの仕事をしてくれるようなイメージです。

最後に統計学の知識。僕は大学の教養レベル程度しか持ち合わせていないため、一緒に本書で勉強していきます。

以上のことからこのブログで取り扱う内容は、Pythonの基礎的な知識、統計学の基礎的な知識、これらを使った実際の分析、などがメインになります。


ではまず環境の構築からやっていきましょう。

Jupyter Notebookのインストール

どうも最初に「Anaconda」というパッケージをインストールするようです。

「Jupyter Notebookじゃないの?」と思ったのですが、Anacondaの中にデータサイエンティストに必要なものが全て入っているようなのでとりあえずこれをダウンロードしてみます。

ポイント

ここからインストール

https://www.anaconda.com/

公式ページに飛び、「Products」の「indivisual edition」をクリック。

ページを下へとスクロールし自分のOSの欄からインストールしてみます。僕はMacOSなので「64-Bit Graphical Installer (462 MB)」をクリック。

anacondaインストール

Anaconda3インストーラーがinstallされたら説明にしたがって「次へ」をクリックしていきます。

anacondaインストール2

installが終わればあとは何か作業は必要ないみたいです!

Jupyter Notebookの起動

起動にはMacBookの場合「ターミナル」を使用します。

ターミナル

ハッカーが使ってそうな画面のやつですね!ここに以下のように入力します。(Windowsなら『テキストエディタ』)

$ jupyter notebook

そうするとwebブラウザでJupyter Notebookが起動します。これでひとまず完了っぽいですね!

追加で、Anaconda内には含まれていませんが、後々使うであろうライブラリが2つほどありますのでこちらもついでにターミナルからダウンロードしておきます。

- pandas-datareader
- Plotly

$ pip install pandas-datareader

とターミナルで入力してpandas-datareaderをダウンロード。

$ pip install Plotly

でPlotlyをダウンロードします。

こちらで環境の方はどうにか整ったようです!つまりPythonを書いたら何かしらが帰ってくる状態になりました!

次回からは実際にPythonについて勉強していこうと思います。
ここまでご視聴ありがとうございました!

-Python, 統計学
-, , ,

© 2024 Ryu'sHelloWorld Powered by AFFINGER5