Buffett Code inc.
小さなチーム、
大きな挑戦。
Join us and shine brighter.
Buffett Code inc.

データエンジニア

募集背景

  • バフェット・コードは、日本で最も広く使われている企業分析ツールの1つであり、100万社超の企業データを扱う大規模データプラットフォーム
  • バフェット・コードのサービスの肝は「データの収集と、Webサービスで使えるようにするためのデータ処理」。データエンジニアリングこそが事業の中核を担う
  • 2019年のリリース以来、EDINET、TDnet、決算短信、有価証券報告書、企業Webサイトなど多様なデータソースから財務・企業情報を収集・構造化し、100万MAUを超えるユーザーに価値を提供
  • 最大の技術的チャレンジは、発行体ごとにスキーマが異なる多様なデータを、統一的なバフェット・コード用のデータモデルに変換すること。この処理には高度な設計力とパフォーマンス最適化が求められる
  • データ基盤の開発を加速させ、自走してプロジェクトを進められるデータエンジニアを募集

業務内容

企業・財務データの収集・加工パイプラインの開発・運用

  • EDINET、TDnet、各種決算資料、企業Webサイトといった様々なデータソースからのクローラ開発
  • 収集したデータをデータベースに保存し、Webサービスで使えるようにするためのデータ変換パイプラインの開発・運用
  • データ品質の監視と異常検知の仕組み構築

データベース運用とパフォーマンス改善

  • PostgreSQL、DynamoDB、OpenSearch等を用いたデータベースの運用
  • クエリパフォーマンスの分析と改善
  • データモデルの継続的な見直しと改善

AWS BatchとETL/ELTワークフローの構築

  • Apache Airflowを用いたデータパイプラインの開発・保守
  • バッチ処理の効率化とエラーハンドリングの強化

入社後の具体的な役割イメージ

入社後は、既存のデータパイプラインやデータモデルを理解したうえで、特定のデータ領域や処理フローに取り組んでいただきます。

具体的には

  • EDINET・TDnet・決算資料など、特定のデータソースを担当として持ち、収集・変換・保存まで一貫して改善
  • データ欠損、遅延、スキーマ揺れなどの課題を洗い出し、データ品質と処理パフォーマンスの両立を意識した改善
  • Webエンジニア・機械学習エンジニアと連携し、
    • 「どのデータがあればユーザー価値が上がるか」
    • 「どの粒度・鮮度で提供すべきか」
      を議論しながらデータ基盤を拡張

※ 入社時点ですべてを理解している必要はありません。
※ 既存メンバーが設計思想や背景を共有しながらオンボーディングします。


技術的な難しさ・チャレンジ

バフェット・コードのデータエンジニアリングには、単なるETL開発では終わらない難しさがあります。

主なチャレンジ例

  • 発行体ごとに異なるスキーマ・表記・粒度を、統一データモデルに落とし込む設計
    • 正規化とクエリ性能のトレードオフ
    • 後方互換性を保ちながらのスキーマ進化
  • 訂正開示・遅延データ・再提出データの扱い
    • 過去データの差し替え
    • 再計算コストと処理順序の設計
  • 大量データを前提としたパフォーマンス最適化
    • バッチ処理時間の短縮
    • DB・ストレージ・ワークフロー全体を見渡したボトルネック解消
  • 「正しいデータとは何か」を定義し続ける難しさ
    • データ品質の定量化
    • 異常検知や監視ルールの設計

開発環境

  • 言語: Python
  • データベース: PostgreSQL 15系, Amazon DynamoDB
  • 検索エンジン: Amazon OpenSearch Service
  • ストレージ/キャッシュ: Amazon S3, Amazon ElastiCache
  • ワークフロー: Apache Airflow
  • IaC: Terraform
  • モニタリング: Amazon CloudWatch, Rollbar
  • コード管理: GitHub
  • CI/CD: GitHub Actions
  • AI開発支援: Devin, Claude Code, Codex
  • その他: Docker, Amazon ECS, AWS Batch, OpenAI API, Claude API

チーム体制と仕事の進め方

  • 正社員エンジニア5名(うちデータエンジニア2名)+業務委託メンバー複数
  • Webエンジニア、機械学習エンジニアと連携しながらデータ収集・加工・分析を担当
  • プロダクトオーナーとの仕様検討から開発・リリースまで一気通貫で担当
  • メンバー出身例:ヤフー、サイボウズ、メルカリ、10X、ブレインパッド、AlpacaJapan、弥生、リクルート など

やりがい・魅力

  • 日本最大級の企業データセット構築を通じて、100万人超のユーザーに価値を届けられる
  • 発行体ごとに異なるスキーマを統一モデルに変換する設計と、大規模データ処理のパフォーマンス改善に取り組める
  • 企業データは事業のコアバリューであり、データパイプラインの実装が直接事業成長に貢献する
  • CEOやプロダクトオーナーと直接議論し、技術的観点からプロダクトの意思決定に関与できる
  • 裁量の大きい環境において、事業貢献と技術的成長を同時に実現できる

応募資格

  • データパイプラインもしくは分析用データマートの開発・運用経験
  • 要件定義から実装・テスト・リリースまで一連の流れを自走して進められる方
  • 主体的に動き、裁量の大きい環境で成果を出せる方

歓迎するスキル

  • Webクローラーの開発経験
  • Apache Airflowなどのワークフローオーケストレーションツールの利用経験
  • データクオリティの向上やデータカタログの整備に関する経験
  • パフォーマンスチューニング/リファクタリングの経験
  • システムの課題に気づき、チームで問題を解決する能力
  • Webアプリケーション開発の知識と経験
  • 企業分析や財務・会計、金融データに対する理解

求める人物像

  • プロダクトや事業を理解し、技術的な観点からプロダクトの成長に貢献できる方
  • 仕組み化・自動化による改善を楽しみ、継続的に自身とチームの生産性を高められる方
  • 裁量の大きい環境で責任を持ち、自律的に設計・実装や運用の改善を進められる方

給与

  • 年収 600万〜800万円(スキル・経験に応じて決定)

勤務地

  • フルリモート(希望者は東京オフィス利用可)

勤務時間

  • 10:00〜19:00(裁量労働制/調整可能)

休日・休暇

  • 完全週休二日制
  • 年間休日120日以上

福利厚生

  • 各種社会保険完備
  • リモートワーク制度
  • 外部勉強会、カンファレンス参加を推奨
カジュアル面談を依頼する