シニアデータエンジニア
募集背景
- バフェット・コードは、日本で最も広く使われている企業分析ツールの1つであり、100万社超の企業データを扱う大規模データプラットフォーム
- バフェット・コードのサービスの肝は「データの収集と、Webサービスで使えるようにするためのデータ処理」。データエンジニアリングこそが事業の中核を担う
- 2019年のリリース以来、EDINET、TDnet、決算短信、有価証券報告書、企業Webサイトなど多様なデータソースから財務・企業情報を収集・構造化し、100万MAUを超えるユーザーに価値を提供
- 最大の技術的チャレンジは、発行体ごとにスキーマが異なる多様なデータを、統一的なバフェット・コード用のデータモデルに変換すること。この処理には高度な設計力とパフォーマンス最適化が求められる
- データ収集・加工・分析にオーナーシップを持ち、企業のコアバリューである企業データを進化させるデータエンジニアを募集
業務内容
企業・財務データの収集・加工パイプラインの設計・開発・運用(最重要業務)
- EDINET、TDnet、各種決算資料、企業Webサイトといった様々なデータソースからのクローラ開発
- 収集したデータをデータベースに保存し、Webサービスで使えるようにするためのデータ変換パイプラインの設計・開発・運用
- データ品質の監視と異常検知の仕組み構築
データベース設計とパフォーマンス最適化
- PostgreSQL、DynamoDB、OpenSearch等を用いた大規模データベースの設計・運用
- クエリパフォーマンスの分析と改善
- データモデルの継続的な見直しと最適化
AWS BatchとETL/ELTワークフローの構築と改善
- Apache Airflowを用いたデータパイプラインの開発・保守
- バッチ処理の効率化とエラーハンドリングの強化
- データ処理の高速化とコスト削減
データ基盤の技術選定と刷新
- より効率的なデータ処理技術の導入・検証
- スケーラビリティを考慮した基盤設計
入社後の具体的な役割イメージ
入社後は、既存のデータパイプラインやデータモデルを理解したうえで、特定のデータ領域や処理フローにオーナーシップを持って取り組んでいただきます。
具体的には
- EDINET・TDnet・決算資料など、特定のデータソースを主担当として持ち、収集・変換・保存まで一貫して改善
- データ欠損、遅延、スキーマ揺れなどの課題を洗い出し、データ品質と処理パフォーマンスの両立を意識した設計改善
- Webエンジニア・機械学習エンジニアと連携し、
- 「どのデータがあればユーザー価値が上がるか」
- 「どの粒度・鮮度で提供すべきか」
を議論しながらデータ基盤を拡張
- 単なる運用ではなく、データモデルやパイプラインの設計判断そのものに関与
※ 入社時点ですべてを理解している必要はありません。
※ 既存メンバーが設計思想や背景を共有しながらオンボーディングします。
技術的な難しさ・チャレンジ
バフェット・コードのデータエンジニアリングには、単なるETL開発では終わらない難しさがあります。
主なチャレンジ例
- 発行体ごとに異なるスキーマ・表記・粒度を、統一データモデルに落とし込む設計
- 正規化とクエリ性能のトレードオフ
- 後方互換性を保ちながらのスキーマ進化
- 訂正開示・遅延データ・再提出データの扱い
- 過去データの差し替え
- 再計算コストと処理順序の設計
- 大量データを前提としたパフォーマンス最適化
- バッチ処理時間の短縮
- DB・ストレージ・ワークフロー全体を見渡したボトルネック解消
- 「正しいデータとは何か」を定義し続ける難しさ
- データ品質の定量化
- 異常検知や監視ルールの設計
これらはすべて、データエンジニアが主体的に意思決定し、改善を積み重ねていく領域です。
開発環境
- 言語: Python
- データベース: PostgreSQL 15系, Amazon DynamoDB
- 検索エンジン: Amazon OpenSearch Service
- ストレージ/キャッシュ: Amazon S3, Amazon ElastiCache
- ワークフロー: Apache Airflow
- IaC: Terraform
- モニタリング: Amazon CloudWatch, Rollbar
- コード管理: GitHub
- CI/CD: GitHub Actions
- AI開発支援: Devin, Claude Code, Codex
- その他: Docker, Amazon ECS, AWS Batch, OpenAI API, Claude API
チーム体制と仕事の進め方
- 正社員エンジニア5名(うちデータエンジニア2名)+業務委託メンバー複数
- Webエンジニア、機械学習エンジニアと連携しながらデータ収集・加工・分析を担当
- CEOやプロダクトオーナーと直接議論し、データ収集やスキーマ策定、データパイプラインの実装まで一気通貫で関わる
- メンバー出身例:ヤフー、サイボウズ、メルカリ、10X、ブレインパッド、AlpacaJapan、弥生、リクルート など
やりがい・魅力
- 日本最大級の企業データセット構築を通じて、100万人超のユーザーに価値を届けられる
- 発行体ごとに異なるスキーマを統一モデルに変換する高度な設計と、大規模データ処理のパフォーマンス最適化に取り組める
- 企業データは事業のコアバリューであり、データパイプラインの設計・実装が直接事業成長に貢献する
- CEOやプロダクトオーナーとデータ戦略を議論し、技術的判断を通じてプロダクトの方向性に影響を与えられる
応募資格
- システム全体を俯瞰し、技術的な意思決定とチームの生産性向上をリードできる方
- 主体的に動き、裁量の大きい環境で成果を出せる方
さらに、以下のうち2つ以上を満たす方
- データクオリティの向上やデータカタログの整備に関する経験
- Webクローラーの開発経験
- データパイプラインもしくは分析用データマートの設計、開発、運用経験
- Apache Airflowなどのワークフローオーケストレーションツールの利用経験
歓迎するスキル
- リファクタリングとパフォーマンスチューニングの豊富な経験
- システムの課題を発見し、チームと協力して根本的な解決策を実装できる能力
- Webアプリケーション開発の知識と経験
- 企業分析や財務・会計、金融データに対する理解
求める人物像
- 事業戦略を理解し、中長期の視点でプロダクトの開発をリードできる方
- 技術負債の解消と新機能開発のバランスを判断し、最適な技術選択でチームの生産性を高められる方
- 高い技術力を発揮し、設計・実装・運用を自ら担いながらプロダクトを前進させられる方
給与
- 年収 800万〜1,300万円(スキル・経験に応じて決定)
勤務地
- フルリモート(希望者は東京オフィス利用可)
勤務時間
- 10:00〜19:00(裁量労働制/調整可能)
休日・休暇
- 完全週休二日制
- 年間休日120日以上
福利厚生
- 各種社会保険完備
- リモートワーク制度
- 外部勉強会、カンファレンス参加を推奨