案件内容 |
現在国内エネルギー系⼤⼿企業がエンド顧客となるデータ基盤構築PoCプロジェクトが進⾏中。
PoCを通してインフラアーキテクチャの策定、⼤まかなデータパイプラインのフローを策定した9⽉以降の本番環境構築では、インフラ構築からセキュリティ対応、より多くのデータパイプライン構築を予定しており、データエンジニアの拡充を⾏っている。
データ基盤要件定義 データレイクに保存するデータの形式の洗い出し (CSV, JSON, 画像ファイ ル etc…) データソースのインターフェイス特定 (REST API, FTP etc…) データ加⼯(ETL)要件ヒアリング データレイク設計 (Hadoop File System) DWH設計/テーブル定義 (Apache Hive, Spark, HBase etc…) データフロー設計 (Apache NiFi) バッチアプリケーション作成 (Java, Shellスクリプト) インフラセキュリティ対応 (SSL化対応、AD認証連携 etc…)
環境
オンプレサーバー (現地作業等は無し、リモートから接続)
OS: RHEL8HPE Ezmeral Data Fabric (Hadoop, Hive, Spark, NiFi etc…)
データ分散処理基盤にまつわるpache系OSSをまとめたパッケージ製品
(サポートが付くだけのようなイメージ)
HPE Ezmeral Runtime (≒ Kubernetes)
OpenShift等に⽐べ、より純正Kubernetesに近い
構成
データレイク: HDFS, minio(≒S3), HBase
DWH: Hive or Spark
ワークフロー: NiFi or Airflow
データ加⼯: Hive, Spark (シェルスクリプト/Java or Python)
BI: Tableau, Palantir (本募集スコープの作業範囲外)
体制
アジャイル開発 (スクラム)
メンバー10名程度
デイリーで午前にスクラムミーティング有り
|