データエンジニア
募集背景
- バフェット・コードは、日本で最も広く使われている企業分析ツールの1つであり、100万社超の企業データを扱う大規模データプラットフォーム
- バフェット・コードのサービスの肝は「データの収集と、Webサービスで使えるようにするためのデータ処理」。データエンジニアリングこそが事業の中核を担う
- 2019年のリリース以来、EDINET、TDnet、決算短信、有価証券報告書、企業Webサイトなど多様なデータソースから財務・企業情報を収集・構造化し、100万MAUを超えるユーザーに価値を提供
- 最大の技術的チャレンジは、発行体ごとにスキーマが異なる多様なデータを、統一的なバフェット・コード用のデータモデルに変換すること。この処理には高度な設計力とパフォーマンス最適化が求められる
- データ基盤の開発を加速させ、自走してプロジェクトを進められるデータエンジニアを募集
業務内容
企業・財務データの収集・加工パイプラインの開発・運用
- EDINET、TDnet、各種決算資料、企業Webサイトといった様々なデータソースからのクローラ開発
- 収集したデータをデータベースに保存し、Webサービスで使えるようにするためのデータ変換パイプラインの開発・運用
- データ品質の監視と異常検知の仕組み構築
データベース運用とパフォーマンス改善
- PostgreSQL、DynamoDB、OpenSearch等を用いたデータベースの運用
- クエリパフォーマンスの分析と改善
- データモデルの継続的な見直しと改善
AWS BatchとETL/ELTワークフローの構築
- Apache Airflowを用いたデータパイプラインの開発・保守
- バッチ処理の効率化とエラーハンドリングの強化
入社後の具体的な役割イメージ
入社後は、既存のデータパイプラインやデータモデルを理解したうえで、特定のデータ領域や処理フローに取り組んでいただきます。
具体的には
- EDINET・TDnet・決算資料など、特定のデータソースを担当として持ち、収集・変換・保存まで一貫して改善
- データ欠損、遅延、スキーマ揺れなどの課題を洗い出し、データ品質と処理パフォーマンスの両立を意識した改善
- Webエンジニア・機械学習エンジニアと連携し、
- 「どのデータがあればユーザー価値が上がるか」
- 「どの粒度・鮮度で提供すべきか」
を議論しながらデータ基盤を拡張
※ 入社時点ですべてを理解している必要はありません。
※ 既存メンバーが設計思想や背景を共有しながらオンボーディングします。
技術的な難しさ・チャレンジ
バフェット・コードのデータエンジニアリングには、単なるETL開発では終わらない難しさがあります。
主なチャレンジ例
- 発行体ごとに異なるスキーマ・表記・粒度を、統一データモデルに落とし込む設計
- 正規化とクエリ性能のトレードオフ
- 後方互換性を保ちながらのスキーマ進化
- 訂正開示・遅延データ・再提出データの扱い
- 過去データの差し替え
- 再計算コストと処理順序の設計
- 大量データを前提としたパフォーマンス最適化
- バッチ処理時間の短縮
- DB・ストレージ・ワークフロー全体を見渡したボトルネック解消
- 「正しいデータとは何か」を定義し続ける難しさ
- データ品質の定量化
- 異常検知や監視ルールの設計
開発環境
- 言語: Python
- データベース: PostgreSQL 15系, Amazon DynamoDB
- 検索エンジン: Amazon OpenSearch Service
- ストレージ/キャッシュ: Amazon S3, Amazon ElastiCache
- ワークフロー: Apache Airflow
- IaC: Terraform
- モニタリング: Amazon CloudWatch, Rollbar
- コード管理: GitHub
- CI/CD: GitHub Actions
- AI開発支援: Devin, Claude Code, Codex
- その他: Docker, Amazon ECS, AWS Batch, OpenAI API, Claude API
チーム体制と仕事の進め方
- 正社員エンジニア5名(うちデータエンジニア2名)+業務委託メンバー複数
- Webエンジニア、機械学習エンジニアと連携しながらデータ収集・加工・分析を担当
- プロダクトオーナーとの仕様検討から開発・リリースまで一気通貫で担当
- メンバー出身例:ヤフー、サイボウズ、メルカリ、10X、ブレインパッド、AlpacaJapan、弥生、リクルート など
やりがい・魅力
- 日本最大級の企業データセット構築を通じて、100万人超のユーザーに価値を届けられる
- 発行体ごとに異なるスキーマを統一モデルに変換する設計と、大規模データ処理のパフォーマンス改善に取り組める
- 企業データは事業のコアバリューであり、データパイプラインの実装が直接事業成長に貢献する
- CEOやプロダクトオーナーと直接議論し、技術的観点からプロダクトの意思決定に関与できる
- 裁量の大きい環境において、事業貢献と技術的成長を同時に実現できる
応募資格
- データパイプラインもしくは分析用データマートの開発・運用経験
- 要件定義から実装・テスト・リリースまで一連の流れを自走して進められる方
- 主体的に動き、裁量の大きい環境で成果を出せる方
歓迎するスキル
- Webクローラーの開発経験
- Apache Airflowなどのワークフローオーケストレーションツールの利用経験
- データクオリティの向上やデータカタログの整備に関する経験
- パフォーマンスチューニング/リファクタリングの経験
- システムの課題に気づき、チームで問題を解決する能力
- Webアプリケーション開発の知識と経験
- 企業分析や財務・会計、金融データに対する理解
求める人物像
- プロダクトや事業を理解し、技術的な観点からプロダクトの成長に貢献できる方
- 仕組み化・自動化による改善を楽しみ、継続的に自身とチームの生産性を高められる方
- 裁量の大きい環境で責任を持ち、自律的に設計・実装や運用の改善を進められる方
給与
- 年収 600万〜800万円(スキル・経験に応じて決定)
勤務地
- フルリモート(希望者は東京オフィス利用可)
勤務時間
- 10:00〜19:00(裁量労働制/調整可能)
休日・休暇
- 完全週休二日制
- 年間休日120日以上
福利厚生
- 各種社会保険完備
- リモートワーク制度
- 外部勉強会、カンファレンス参加を推奨