Pysparkの案件一覧

過去に募集したエンジニア、データサイエンティスト、マーケターの案件を中心に掲載しています。
非公開案件を多数保有していますので、ご希望のイメージに近い案件をクリックして無料サポートにお申込みください。
専門コンサルタントがヒアリングを通じて最適な案件をご提案いたします。
単価や稼働日数などの条件面についてもお気軽にご相談ください。

該当件数:7

Pysparkの案件を探す

案件内容

クライアントが保有するビッグデータの利活用を進めていくにあたりAWSでのデータの加工、修正をお願いいたします。

必須スキル
・ AWSの基礎的な知識/構築経験(AWS SAA相当の知識)
・以下のプログラミング経験
– AWSと連携する機能を設計・実装・テストした経験
– Python, SQL、シェルスクリプトをメインで使用。別言語の経験でも可
・ コミュニケーションスキル
・ Linuxの基本的なコマンド操作
案件内容

pandas ライブラリを利用した ETL 処理
をしていただきます。

担当フェイズ
設計~開発~テスト

必須スキル
pandas ライブラリを利用した ETL 処理に慣れている方
— データソース:csv, parquet, Redshift/RDS table, boto3 API
— 加工処理:カラムの追加・削除、行列抽出、値の置換、四則演算、日付演算等
— アウトプットの書き込み:S3(csv, parquet, json), Redshift, RDS
静的解析ツールのチェック結果に基づいてコードの修正が可能な方(flake8, mypy)
ユニットテストを実装できる方(pytest)
案件内容

【概要】
通信会社サービスのデータ分析データマート開発・改修業務。
・BtoBのデータトリブンを進めていくためにDWHにデータを集める作業
・通信会社独自ツールよりデータを加工し、移行
・テーブル内データの整備がメイン。

必須スキル
・Python分析経験(pandas)
・データ加工、抽出経験
・DWH構築経験
・基盤構築経験
案件内容

特典型サービスの改善に向けたデータ分析データマート開発・改修業務。
データ調査、加工、集計 等

必須スキル
・Python分析経験2~3年以上
・SQLを問題無く扱えるスキル
・AWS上での業務経験
・ビッグデータ分析に携わった経験
案件内容

AWS上にIoTデータを集積したレイクハウスを設計・構築いたします。
設計・構築の依頼はAWS Glue、StepFunctionsによる設計・構築、テストが依頼範囲となります。
データ規模が大きいシステムのため、AWS Glue、Sparkの技術に明るく性能面、コスト面から最適化のアプローチができる方を希望します。

必須スキル
・AWS上でのデータ分析基盤を構築した経験
・AWS Glueを前提としたPython(PySpark)によるETL開発経験
・Gitを前提とした開発フローの経験
案件内容

【業務内容】
大手広告代理店が展開しているインターネット広告代理店業における、膨大な広告データを収集・蓄積したデータレイクからデータを展開するためのデータ基盤(ETL処理、DWH、DM)の開発、運用、保守をお願いします。

【ポイント】

  • データレイクが取り扱うデータ量は数十TB/月を誇り、毎日数10億単位のレコードを蓄積しているため、そんな大規模データと向き合った開発にチャレンジすることができます。
  • 複数のプロダクトを管理しているチームのため、様々な技術を習得することができます。

【開発チームと配属先について】
当事業部には現状で約60名のエンジニアが在籍しており、複数のチームに分かれて開発を進めています。
今回お願いしたいポジションはサーバサイドエンジニアです。

チームには現在18名のエンジニアが在籍しています。
また、複数のプロダクトを管理しているチームのため、担当領域ごとにグループ分けをしています。

  • Infeed領域の広告運用のためのプロダクトを開発するグループ
  • インターネット広告関連データをデータレイクに蓄積するシステムを開発するグループ
  • インターネット広告関連データが蓄積されたデータレイクを用いたデータ基盤を開発するグループ
  • 機械学習を用いたプロダクトを開発するグループ
  • 掲載情報や実績情報を出力・レポーティングするための分析用プロダクトを開発するグループ

【技術キーワード】

  • ApacheSpark
  • AWS Glue
  • Snowflake
  • データレイク/データウェアハウス/データマート
必須スキル
– Scala,Java,Pythonなどを用いた開発経験 3年以上
– ApacheSpark,PySparkなどを用いたETL処理の開発・保守経験 1年以上
– SQLを用いた開発経験 3年以上
– AWSを利用した開発経験
– Dockerなど、コンテナ技術を利用した開発経験
– GitHubでのPRを利用した開発経験

検索結果7件中1-7件