Buffett Code inc.
小さなチーム、
大きな挑戦。
Join us and shine brighter.
Buffett Code inc.

シニアデータエンジニア

募集背景

  • バフェット・コードは、日本で最も広く使われている企業分析ツールの1つであり、100万社超の企業データを扱う大規模データプラットフォーム
  • バフェット・コードのサービスの肝は「データの収集と、Webサービスで使えるようにするためのデータ処理」。データエンジニアリングこそが事業の中核を担う
  • 2019年のリリース以来、EDINET、TDnet、決算短信、有価証券報告書、企業Webサイトなど多様なデータソースから財務・企業情報を収集・構造化し、100万MAUを超えるユーザーに価値を提供
  • 最大の技術的チャレンジは、発行体ごとにスキーマが異なる多様なデータを、統一的なバフェット・コード用のデータモデルに変換すること。この処理には高度な設計力とパフォーマンス最適化が求められる
  • データ収集・加工・分析にオーナーシップを持ち、企業のコアバリューである企業データを進化させるデータエンジニアを募集

業務内容

企業・財務データの収集・加工パイプラインの設計・開発・運用(最重要業務)

  • EDINET、TDnet、各種決算資料、企業Webサイトといった様々なデータソースからのクローラ開発
  • 収集したデータをデータベースに保存し、Webサービスで使えるようにするためのデータ変換パイプラインの設計・開発・運用
  • データ品質の監視と異常検知の仕組み構築

データベース設計とパフォーマンス最適化

  • PostgreSQL、DynamoDB、OpenSearch等を用いた大規模データベースの設計・運用
  • クエリパフォーマンスの分析と改善
  • データモデルの継続的な見直しと最適化

AWS BatchとETL/ELTワークフローの構築と改善

  • Apache Airflowを用いたデータパイプラインの開発・保守
  • バッチ処理の効率化とエラーハンドリングの強化
  • データ処理の高速化とコスト削減

データ基盤の技術選定と刷新

  • より効率的なデータ処理技術の導入・検証
  • スケーラビリティを考慮した基盤設計

入社後の具体的な役割イメージ

入社後は、既存のデータパイプラインやデータモデルを理解したうえで、特定のデータ領域や処理フローにオーナーシップを持って取り組んでいただきます。

具体的には

  • EDINET・TDnet・決算資料など、特定のデータソースを主担当として持ち、収集・変換・保存まで一貫して改善
  • データ欠損、遅延、スキーマ揺れなどの課題を洗い出し、データ品質と処理パフォーマンスの両立を意識した設計改善
  • Webエンジニア・機械学習エンジニアと連携し、
    • 「どのデータがあればユーザー価値が上がるか」
    • 「どの粒度・鮮度で提供すべきか」
      を議論しながらデータ基盤を拡張
  • 単なる運用ではなく、データモデルやパイプラインの設計判断そのものに関与

※ 入社時点ですべてを理解している必要はありません。
※ 既存メンバーが設計思想や背景を共有しながらオンボーディングします。


技術的な難しさ・チャレンジ

バフェット・コードのデータエンジニアリングには、単なるETL開発では終わらない難しさがあります。

主なチャレンジ例

  • 発行体ごとに異なるスキーマ・表記・粒度を、統一データモデルに落とし込む設計
    • 正規化とクエリ性能のトレードオフ
    • 後方互換性を保ちながらのスキーマ進化
  • 訂正開示・遅延データ・再提出データの扱い
    • 過去データの差し替え
    • 再計算コストと処理順序の設計
  • 大量データを前提としたパフォーマンス最適化
    • バッチ処理時間の短縮
    • DB・ストレージ・ワークフロー全体を見渡したボトルネック解消
  • 「正しいデータとは何か」を定義し続ける難しさ
    • データ品質の定量化
    • 異常検知や監視ルールの設計

これらはすべて、データエンジニアが主体的に意思決定し、改善を積み重ねていく領域です。


開発環境

  • 言語: Python
  • データベース: PostgreSQL 15系, Amazon DynamoDB
  • 検索エンジン: Amazon OpenSearch Service
  • ストレージ/キャッシュ: Amazon S3, Amazon ElastiCache
  • ワークフロー: Apache Airflow
  • IaC: Terraform
  • モニタリング: Amazon CloudWatch, Rollbar
  • コード管理: GitHub
  • CI/CD: GitHub Actions
  • AI開発支援: Devin, Claude Code, Codex
  • その他: Docker, Amazon ECS, AWS Batch, OpenAI API, Claude API

チーム体制と仕事の進め方

  • 正社員エンジニア5名(うちデータエンジニア2名)+業務委託メンバー複数
  • Webエンジニア、機械学習エンジニアと連携しながらデータ収集・加工・分析を担当
  • CEOやプロダクトオーナーと直接議論し、データ収集やスキーマ策定、データパイプラインの実装まで一気通貫で関わる
  • メンバー出身例:ヤフー、サイボウズ、メルカリ、10X、ブレインパッド、AlpacaJapan、弥生、リクルート など

やりがい・魅力

  • 日本最大級の企業データセット構築を通じて、100万人超のユーザーに価値を届けられる
  • 発行体ごとに異なるスキーマを統一モデルに変換する高度な設計と、大規模データ処理のパフォーマンス最適化に取り組める
  • 企業データは事業のコアバリューであり、データパイプラインの設計・実装が直接事業成長に貢献する
  • CEOやプロダクトオーナーとデータ戦略を議論し、技術的判断を通じてプロダクトの方向性に影響を与えられる

応募資格

  • システム全体を俯瞰し、技術的な意思決定とチームの生産性向上をリードできる方
  • 主体的に動き、裁量の大きい環境で成果を出せる方

さらに、以下のうち2つ以上を満たす方

  • データクオリティの向上やデータカタログの整備に関する経験
  • Webクローラーの開発経験
  • データパイプラインもしくは分析用データマートの設計、開発、運用経験
  • Apache Airflowなどのワークフローオーケストレーションツールの利用経験

歓迎するスキル

  • リファクタリングとパフォーマンスチューニングの豊富な経験
  • システムの課題を発見し、チームと協力して根本的な解決策を実装できる能力
  • Webアプリケーション開発の知識と経験
  • 企業分析や財務・会計、金融データに対する理解

求める人物像

  • 事業戦略を理解し、中長期の視点でプロダクトの開発をリードできる方
  • 技術負債の解消と新機能開発のバランスを判断し、最適な技術選択でチームの生産性を高められる方
  • 高い技術力を発揮し、設計・実装・運用を自ら担いながらプロダクトを前進させられる方

給与

  • 年収 800万〜1,300万円(スキル・経験に応じて決定)

勤務地

  • フルリモート(希望者は東京オフィス利用可)

勤務時間

  • 10:00〜19:00(裁量労働制/調整可能)

休日・休暇

  • 完全週休二日制
  • 年間休日120日以上

福利厚生

  • 各種社会保険完備
  • リモートワーク制度
  • 外部勉強会、カンファレンス参加を推奨
カジュアル面談を依頼する