機械学習・AI

2020/09/30

データサイエンスとは?定義・手法、普及の背景、導入と業界別事例

あらゆる分野においてデータの利活用が検討されるなか、その中核を担う学問として「データサイエンス」への注目度も高まっています。技術研究や開発実装、人材育成、ビジネスへの導入を検討中の方も多いのではないでしょうか。

この記事では、データサイエンスの定義、実施方法、人材像や種類、教育や組織体制などを紹介します。業界別の事例や将来性についてもみていきましょう。

目次

データサイエンスとは

データサイエンス(Data Science:DS)は、データを軸として情報科学、統計などのアプローチから有益な知見やビジネス上の便益をもたらすよう働きかける学問です。先端分野である機械学習や深層学習などのAI技術とも関連しており、学術的な研究や産業界での応用に注目が集まっています。

ただし、データサイエンスという単語は聞いたことがあっても、その言葉の意味はよく分からない、という方も多いのではないでしょうか。そこでデータサイエンスを理解できるよう、定義や歴史、種類などについて紹介します。

データサイエンスの定義

データサイエンスはデータに関する総合的な学問及び学術分野といえます。ただし、その対象となる領域は、データの分析や処理、活用方法など広範囲に及びます。研究者によっても様々な意味合いを持つデータサイエンスですが、主な構成要素としては次の3つが挙げられます。

データエンジニアリング

データサイエンスを構成する要素のひとつに「データエンジニアリング」があります。それはデータを抽出・加工して使える形に整え、収集したデータを蓄積・統合して分析に適した環境やシステムを構築する技術です。データを格納するストレージ容量が拡大しコンピュータの処理能力が向上したことにより、ビッグデータと呼ばれる膨大なデータも活用の対象となりました。

データアナリシス

データサイエンスの中心となる概念がデータアナリシスです。分析や解析に関する手法そのものをあらわすこともあれば、データからパターンや法則などを抽出するというアナリティクスに近い意味で使用されることもあります。集計・グラフ化などのデータ可視化や統計学的手法でのモデル作成などもデータアナリシスと呼べるでしょう。

価値創造

データエンジニアリングで処理し、データアナリシスで分析した結果得られた示唆や知見を、ビジネスなどの課題解決に活用することはデータサイエンスの重要な役割です。さまざまなデータソースから得られる情報を磨き上げ、新たな価値を創造すること。そのためには、ビジネスや商機を理解し、データ取得の道筋や収益化をも含めた計画を描くことが求められます。

データサイエンスの歴史

データサイエンスが注目されるようになってきたのは2010年くらいからですが、用語自体は1974年(一説には1960年代)から使われています。AIの発展やビッグデータの登場により、データを総合的に扱うデータサイエンスという分野が見直され、もてはやされるようになってきたのです。

データサイエンスの種類

情報科学や統計的な観点からデータを扱うのがデータサイエンスですが、データの扱い方や活用方法によって次の3つの種類に分けることが可能です。

データの集計とグラフ化

社内に蓄積されたデータから課題解決に役立つデータにあたりをつけたとしても、それだけではなかなか有効活用はできません。定量的なデータは集計してこそ現場で使いやすくなるものですし、グラフにして視覚化を図るのも大切です。最新のデータサイエンスは、これらを瞬時に行います。

統計的推測ないしは予測

与えられた豊富なデータを用い、統計的に推測することはデータサイエンスに期待されている役割の1つです。また、機械学習にとって精度の高い予測は得意な分野です。最新のアルゴリズムや手法を利用することで、従来型のモデルよりも正確な推測ないしは予測を行うことに取り組みます。

人工知能(AI)

ビッグデータに含まれるデータは、数値などの構造化データだけではありません。テキストや画像、動画、音声などの非構造化データも含まれます。そのようなデータ解析で注目されるのが深層学習(Deep Learning)です。データサイエンティストはAIモデルの作成やパラメータ調整などでも活躍します。

データサイエンスの手法

データサイエンスの手法には相関分析や回帰分析、ロジスティック回帰やニューラルネットワーク、シミュレーションなどとても多くの種類があります。機械学習の教師あり学習、教師なし学習、データの解析や予測、パターン認識などといった目的に合わせ、手法を選んで使用しましょう。

ビッグデータとは

インターネットの普及により、膨大な量のデータが瞬時に集まるようになってきました。また、そういった大量のデータの格納が可能なデータベースやクラウドコンピューティングサービスが開発されデータの保持・保管も以前より低コストで行えるようになっています。

さらにCPUやGPUなど計算処理するマシンパワーも指数関数的に向上しました。この3つの要因により誕生したのが、巨大なデータ群であるビッグデータです。

ビッグデータにはテキストや音声、数値や動画などといった、多種多様なデータが含まれています。そのような膨大なデータを有効活用するのが、データサイエンスというわけです。

データサイエンティストとは

学術研究の世界だけでなく、ビジネスシーンにおいてもデータを活用した科学的な問題解決に取り組むのがデータサイエンティスト(データサイエンス人材)です。

同じデータサイエンティストといってもプロジェクトでの役割やデータとの関わり方・扱い方によって、主に次の5つのタイプに分けられます。

データアナリスト(分析者)

データサイエンスを支える1つにデータアナリシスがあります。データアナリスト(分析者)は、統計解析の知見をもとにデータを分析し、ビジネス上の問題解決や意思決定をサポートします。SASやSPSSなどの統計ツールを利用したり、BI(ビジネスインテリジェンス)・BA(ビジネスアナリシス)のツール導入を支援したりすることもあります。

データエンジニア(データ整備人)

ビッグデータを利用するためのインフラ環境を整える役割がデータエンジニアです。データレイクやデータウェアハウスなどデータ基盤となるプラットフォームを導入し、データの収集・加工・活用の一連のパイプラインを処理します。サーバー環境にクラウドを利用する割合が増えており、AWSやGCP、Azureなどの知見が必要です。

機械学習エンジニア(開発者・技術者)

ビッグデータの中から共通したパターンを発見するのに役立つのが機械学習。機械学習のライブラリやフレームワークを利用してシステムを実装したり、機械学習を組み込んだITシステムを構築・運用したりするのが機械学習エンジニアの主な仕事です。扱うデータにより、画像認識系のエンジニア(画像データ)と自然言語系のエンジニア(テキストデータ)などに分けることが可能です。

コンサルタント(プランナー)

データサイエンスの知見やAI活用の経験をもとに、ビジネスへの応用を考えたり、問題解決へ役立てたりするのはデータサイエンティストの大事な役目。データ収集や開発などの技術領域はエンジニアに任せ、有効な適用範囲を提案したり戦略を立案したりするのがプランナーやコンサルタントと呼ばれるビジネス職での役割です。

データアーキテクト(モデラー)

IT分野のモデラーは、業務の流れやシステム化の概念を形式的なモデルに落とし込みます。データを使用しやすく保管するためにガイドラインやテンプレートを使用して因果関係を図で表現します。データ管理者やデータエンジニアとも協業してデータマネジメントを実施します。

データサイエンスの実施方法

データサイエンティストが仕事をする際の、データサイエンスの具体的な実施方法は次の4つです。

問題定義

データサイエンスに限らず、仕事を行う際に重要なのが、最初に解決する問題を定義することです。このフェーズにおいて対象や課題があやふやなままでは、望む結果が導き出せません。データサイエンティストの場合はデータを有効に利用して得られるだろう成果やプロジェクト目的を定義します。

データ収集・整理

課題解決の方向性や解決すべき問題を定めたら、必要なデータの収集や調査に着手します。実際のデータに目を通したり、基礎分析のような形でグラフ化・集計を行ったり、具体的な分析手法やアルゴリズムについても検討します。機械学習や深層学習ではデータが大量になることがあるので、データの保管場所や更新など環境を整えることもデータサイエンティストの大切な仕事です。

データ分析

収集した大量のデータは、そのままでは単なるデータのままです。データサイエンティストは目的に適した分析手法でデータを分析し、問題解決に役立つ新たな知見を導き出します。すぐに高い精度を出せることは稀なため、モデルやデータの調整をおこないながら試行錯誤を繰り返すことになります。

課題解決・提言

データ分析・解析で新たな知見が得られたなら、それを課題の解決に結び付けます。また、結果の評価や組織体制・人材育成などに関する提言を行うのもデータサイエンティストの仕事です。評価をレポートにまとめ、経営層にプレゼンして事業に役立てます。

データサイエンスが期待される背景

データサイエンスが大きな注目を集めているのは、期待される様々な理由や背景があるからです。

データ量の増大

SNSやスマートフォンの普及によりデジタル化が加速し、さまざまな情報を取得・活用できるようになりました。デジタルトランスフォーメーション(DX)に取り組む企業も増え、世界中でデータの重要性が見直されています。

また、IoT(モノのインターネット)を活用したサービスの増加に伴い、工場や家庭など電子機器や家電・自動車などからも様々な情報が収集・格納されています。

これらの増大したデータは、企業にとってある意味宝の山とも言えるでしょう。そしてそのようなデータをクラウド上に格納しすぐに利用できるようになっているのです。

データサイエンティストへの期待

コンピュータサイエンスや数学の高度な教育をうけた人材が活躍する分野は学術分野や金融工学や宇宙、物理など一部の分野に限られていました。2010年代になり、ビッグデータの概念が普及したことがきっかけでデータサイエンティスト(統計学者)にスポットライトが当たるようになりました。

さらに機械学習、ディープラーニングなど第三次AIブームの到来により、アルゴリズムを扱う人材が求められている時代(データサイエンティストブーム)となりました。

統計的な手法でデータを扱う専門人材の出現は、デジタル時代にマッチしたものであり、AIの利用が普及するにともなって今後はますます活発になっていくと予想されています。

データサイエンスがビジネスにもたらす変革

データサイエンスの重要性が高まるのは、高度なデータ活用が経営や市場にもたらすインパクトが非常に大きいと考えられているからです。デジタル変革と呼ばれるDX推進に取り組む企業が増え、デジタル化やITインフラの整備とあわせ、電子化された情報の活用にも否応なしに期待が高まっているのです。

企業の内外から集められた膨大なデータはデータサイエンスにより有効活用され、企業に利益をもたらしています。データの活用は売上アップにとどまらず、コストの削減や顧客の維持などにも効果的です。

また、今後は5GやIoTなどの普及が進むことにより、さらに大きな変革がビジネスにもたらされると期待されています。

データサイエンスを活用できる組織

データサイエンスは大きな可能性を秘めていますが、どんなケースでも全てうまくいくという、魔法のツールではありません。高度で複雑な手法も組織のフェーズや課題にあわせた利用がされなければ、宝の持ち腐れになってしまう可能性も否定できません。

また、優秀なデータサイエンティストを確保したとしても定着することは難しいでしょう。それでは、データサイエンスを実務で活用できるような組織とは、どのような組織なのでしょうか。

十分なデータ量と分析課題

データサイエンスを活用するためには、大量のデータを収集・保管している必要があります。つまり、分析するデータが十分に揃っていなければ、いかに高度な教育を受けたデータサイエンティストといえど能力を発揮するのは困難です。また、ビジネスの課題が単純な場合には、既存の手法で解決できるかもしれません。

その点、データマイニングや統計解析に長い年月をかけて取り組んだうえで、それでもなお解決できない、より複雑な課題を抱えている組織なら、最新のデータサイエンスを活用できる可能性があります。

データに価値を置く文化

データサイエンティストが活躍する組織の土壌として、ビジネスに対する科学的なアプローチやデータドリブンな意思決定を推進するカルチャーが求められます。定量的な根拠やデータを重視する文化がないままに採用や育成などデータサイエンスの内製化をすすめても、離職などで人材が定着しません。

データサイエンスにより有益な知見を手に入れたとしても、情報に価値を見出さない組織では有効活用できないだけではなく、分析組織や体制を維持する費用が無駄になってしまいます。そうならないためには、現場の人間から企業のトップ層に至るまで、データに価値を置く組織文化を育む必要があります。

データサイエンス人材の育成

ビジネスの現場で統計的な問題解決の手法を実践するためには、データサイエンス人材が必要不可欠です。とはいえ統計学や数学に加え、情報系のプログラミングなどに精通した人材は不足しており、なかなか正社員として雇用できないのも事実です。

そこで重要になってくるのが、社内での配置転換や人材育成です。情報システムやIT部門の担当者や分析業務に意欲のある人材を対象に、勉強会などを開催して育成に努めるのが肝心です。

データサイエンスを導入するポイント

データサイエンスを導入する場合、留意しておきたい幾つかのポイントがあります。業務に反映し有効活用するためには、それらのポイントをしっかりと把握しておく必要があります。

効率的なデータ収集と分析

データサイエンスを効果的に活用するために欠かせないのが、データの効率的な収集と分析です。社内の部署間の連携が悪い場合、なかなか必要とするデータが手に入らないことがあります。またこれは、機械学習や深層学習などのAIに関する実務でも同様です。

データサイエンティストが効率的にデータの収集・分析ができるよう、社内の環境を整えておくのが大事です。

データ統合と規格の統一

データ活用の背景や目的により使用する単位やツールなど望ましい出力形式は異なります。最終的なアウトプットはデータを集計・加工して変更可能ですが、元となるデータが格納される際の形式は極力統一すべきです。そのため、共通のIDや規格を使用してデータの名寄せや統一をおこなう必要があります。

個人情報など閲覧に制限を加える箇所はありますが、社内の様々な場所に分散するデータを紐づけて様々な切り口で分析できるように統合するのです。

開発チームや他部署メンバーとの連携

データサイエンティストが作成した機械学習モデルも、実際の課題に適用して初めて意味を持ちます。本番環境へのデプロイやシステム実装には開発者が活躍しますし、ビジネスでは事業部門のスタッフとも連携が必要です。そのため、異なる得意領域を持つメンバー同士が協力できるようチーム体制を整える必要があります。

PMやマネージャーが橋渡し役となり、ビジネス部門や開発メンバーとデータサイエンティストがストレスなく連携できる環境を整えるとよいでしょう。

環境構築や運用体制の整備

開発者と分析者が協調して効率よく仕事を行うためには、統一された環境の構築や、IT運用の手間の解消が欠かせません。そこで重要なのが開発環境や運用体制の整備です。人材の調達とあわせITタスク、プロセス、コンテナなどの管理を自動化するオーケストレーションツールの導入やMLOps(機械学習基盤)、CI/CDなどを実践することでモダンなIT運用の体制を整えましょう。

分析をスムーズに行えるようデータを整えるほかに、アプリケーション側でAPIを開発して接続したり、テスト環境と本番環境でOSSのバージョンを揃えておくなど様々な点で連携が必要になります。

意思決定層との連携

エンジニアやアナリストなど分析を担当する人材と部門長・経営層などビジネスオーナーとの十分な連携が、データサイエンス導入の鍵となります。意思決定のプロセスそのものや経営判断の裏付けとしてデータサイエンスにより導き出された示唆が利用されることで、よりスピーディーな意思決定や正確な判断が可能です。

予測モデルや認識システムなどテクノロジーを事業部門で利用し業務効率化や売上向上につなげることもデータサイエンスに注力するという経営層の強い意思表示が必要です。

業界毎のデータサイエンス事例

データサイエンスの導入を検討する場合、参考になるのが実際の活用事例です。ビッグデータや機械学習システムなどの解析プロジェクトは様々な分野で導入されていますが、代表的な事例をピックアップしてご紹介しましょう。

医療

データサイエンスを活用している分野の代表的存在が、医療分野です。薬の開発では多くのデータや検証を行いますし、データの収集は診断や研究などに活かされます。

症状やデータから病気になる確率を判定したり、健康上のリスクとなる因子を発見することで、病気を未然に防ぐ可能性がでてきます。

医療分野での身近な例として、たとえば新型コロナウイルスの場合、厚生労働省がLINEを使用して集めた情報をもとに、感染対策を講じました。そのほか、内視鏡検査の画像やレントゲン写真などの判定についても研究や実用化が進められています。

小売

流通・小売業界では、コンビニエンスストアやスーパーマーケットで早くからPOSによる購買データの蓄積や在庫・発注管理などがおこなわれています。そのような顧客の購買行動にあわせた需要変動の予測や価格変更による売上・利益率などの変動、在庫リスクなどSCMに関するデータ分析はおもなテーマといえるでしょう。

また、ECサイトやオンラインショッピングでのマーケティングに関する分析も注目されています。ネット通販事業者の代表格であるAmazonは、グローバルでもトップレベルのデータサイエンスカンパニーです。

GAFAの一角として最大規模のユーザーデータを保持し、サイト上での行動やこれまでの購買履歴から、商品が売れる本当の理由を分析しています。そしてそのデータを活用し、さらに売り上げを伸ばしているのです。

飲食

飲食チェーンや宿泊施設などのサービス業界も、小売業と同様に決済で電子マネーやポイントカードが利用されるようになり、消費者毎の購買行動や来店履歴などを分析できるようになりました。曜日や時間帯ごとの来店パターンや購買金額を分析することで店舗に配置するスタッフの調整や仕入れる食材量を調整することで、廃棄ロスや欠品による機会損失を減らすなどの試みがされています。

飲食業界でデータサイエンスを導入した具体的な事例で有名なのが、回転寿司のスシローです。スシローでは全ての寿司皿にICチップを取り付けることで、売上やレーン上の寿司の鮮度の管理に役立てています。また、日本各地のチェーン店からのデータを分析し、需要を予測して適した寿司を流しています。

エンタメ

エンターテイメントの業界では、ソーシャルゲームやオンラインゲームなどでのユーザー行動やマネタイズにデータサイエンスを活用しています。EC業界と同じくユーザーの行動ログや課金などの履歴の収集・蓄積が容易におこなえるため、それを分析するデータアナリストの需要は高いです。

エンターテイメント分野のリアルビジネスでも顧客分析は盛んにおこなわれており、USJ(ユニバーサル・スタジオ・ジャパン)のデータを活用したマーケティングは有名です。

また、国外の事例ですがテーマパークの草分け的存在のディズニーワールドでも、データサイエンスを積極的に導入しています。手首に巻き付けるバンド型のセンサーを利用して、入場者の行動、たとえばどのアトラクションに乗り、何を購入したのかというデータを毎日大量に集めることが可能です。そしてそのデータを活用し、ユーザーの満足度と利益の向上に役立てています。

保険

生命保険、損害保険などの保険業界も、様々な目的でデータサイエンスを導入している業界の1つです。もともと数学や確率計算と親和性の高い業界であり、アクチュアリーなどの専門職種が統計や数学を学んだ専門職として確立されています。

とあるアジアの保険会社は、保険金請求詐欺の検出にデータサイエンスを活用しています。また韓国の保険会社は顧客が提供したデータをもとに、新商品販売対象者の特定や保険金支払い実績の改善を図っています。

データサイエンスの今後

さまざまな業界で実用が期待されているデータサイエンスですが、気になるのは今後の展開ではないでしょうか。データサイエンスの今後に関してチェックしておきたいポイントは次の3つです。

国内におけるデータサイエンス市場の現状

日本国内におけるデータサイエンス市場は、順調に伸びているのが現状です。金融や情報通信などIT投資が盛んな分野では堅調な需要がありますし、製造・エネルギー・農業などの分野でも効率化に取り組む企業が増えてきました。

デジタルマーケティングを推進する広告業界や消費者向けの小売、美容、ファッション、人材紹介、転職などのビジネス、旅行・宿泊、医療や介護の現場では患者や高齢者の行動をデータ化し、事故防止や仕事の簡略化につなげています。

また、タクシー業界ではデータをもとに、利用客の多いスポットを割り出して売上をアップさせています。このように様々な分野で、データサイエンスの活用の場が広がっているのです。

データサイエンスを推進する上での課題は人材不足

データ分析やビッグデータを活用する需要自体は広がりつつあるものの、企業内に散在するデータを統合したり、予測精度を向上しシステムとして組み込むなどデータサイエンスをさらに推進するためには乗り越えなければならない内製化の課題があります。

その課題とは、データ分析やAI実装などの実務経験を持つ人材の不足です。高度な統計処理の仕事を一人でこなせるようになるには、統計や分析、プログラミングや機械学習などの専門教育に加え、実務での経験が必要です。

未経験者やジュニアクラスの人材を育成できる指導者やトレーナー的なデータサイエンティストはまだまだ不足しており、今後の計画的育成が望まれます。

研究分野の総合力と実践力が試される

データサイエンスは、数多くの研究分野の集合体であるという側面を持っています。そのため技術や学術研究の動向には注意が必要です。精度高いモデルを作成するためのアルゴリズムや統計処理の手法は海外論文などにも目を通しながら確認する必要があるでしょう。

データを保管したり加工するためのクラウドコンピューティングやツールなど技術要素についてもキャッチアップは欠かせません。また、実践にはPythonやRなどでコードを書いて実装することも大切です。

そのような点から研究分野の総合力と実際の課題に適用し分析スキルを磨くなど実践力が試されるのが、今後のデータサイエンスであるとも言えるのです。

関連記事Related Posts