Senior Site Reliability Engineer

  • Tokyo
  • Partial Remote
  • Full-time
  • October 4, 2024
Conditions
yen-icon
¥7M ~ ¥13M /yr
location-icon
Apply from Anywhere 👍
visa-icon
Relocation to Japan 👍
(Overseas visa sponsorship supported)
Requirements
language-icon
Language Requirements
Japanese: Conversational
English: Business Level

【仕事内容】

As a senior Site Reliability Engineer, you will be responsible for developing solutions, implementing requirements, assisting in creating key processes and procedures, that facilitate product planning, execution and delivery. We aim to solve society's issues with AI, so our mission is to solve the Engineering Department's issues!

  1. Lead the design, implementation, and management of scalable and reliable infrastructure solutions in public cloud environments (e.g., AWS).
  2. Lead the development and maintenance of Kubernetes clusters, ensuring optimal performance, availability, and security.
  3. Collaborate with development teams to provide expertise in designing architecture, act as a trusted advisor for development teams, provide consultations on infrastructure-related matters and guide them toward effective and scalable solutions.
  4. Monitor system performance, troubleshoot complex issues, and implement proactive measures to ensure high availability and reliability.
  5. Lead incident response and resolution, conducting post-mortem analyses to identify areas for improvement.
  6. Lead the professional development initiatives within the team by mentoring junior members, conducting comprehensive code reviews to uphold quality and best practices, and orchestrating training and workshops to enhance overall skill sets.



シニアSREとして、製品の企画、実行、およびデリバリーを円滑にするための主要なプロセスと手順の開発、要件の実装に責任を持ちます。AIを使用して社会の課題を解決することを目指しているため、エンジニアリング部門の問題を解決する使命を担います!

  1. AWSなどのパブリッククラウド環境でスケーラブルで信頼性のあるインフラソリューションの設計、実装、および管理をリードします。
  2. Kubernetesクラスターの開発とメンテナンスをリードし、最適なパフォーマンス、可用性、およびセキュリティを確保します。
  3. 開発チームと協力してアーキテクチャの設計に専門知識を提供し、開発チームに対して信頼できるアドバイザーとして機能し、インフラに関連する問題に対するコンサルテーションを行い、効果的かつスケーラブルなソリューションに導きます。
  4. システムのパフォーマンスを監視し、複雑な問題のトラブルシューティングを行い、高い可用性と信頼性を確保するための積極的な対策を実施します。
  5. インシデントの対応と解決をリードし、事後分析を実施して改善の余地を特定します。
  6. チーム内のプロフェッショナルな成長イニシアチブをリードし、ジュニアメンバーへのメンタリング、コードの総合的なレビューによる品質とベストプラクティスの維持、全体的なスキルセットの向上を図るためのトレーニングとワークショップを主催します。

 

【必須要件】

  • Extensive expertise in at least one cloud platform (i.e. AWS, Azure, GCP, etc...) and experience in designing and leading the management of scalable cloud-based infrastructure
  • Strong expertise in infrastructure-as-code solutions such as Terraform
  • Strong operational expertise in containerization technologies, especially Kubernetes
  • In-depth knowledge of source control, CI/CD, infrastructure automation, orchestration, deployment automation and configuration management
  • Solid understanding of networking and security best practices
  • Excellent problem-solving skills and the ability to lead collaboratively in a team-oriented environment.
  • While our team is mostly English-speaking, you should be comfortable enough talking in Japanese with other internal stakeholder

 

  • 少なくとも1つのクラウドプラットフォーム(例:AWS、Azure、GCPなど)における幅広い専門知識と、スケーラブルなクラウドベースのインフラストラクチャの設計および管理のリーダーシップ経験
  • Terraformなどのインフラストラクチャのコード化ソリューションにおける強力な専門知識
  • 特にKubernetesにおける強力な運用の専門知識
  • ソースコントロール、CI/CD、インフラストラクチャの自動化、オーケストレーション、デプロイメントの自動化、および構成管理に関する深い知識
  • ネットワーキングおよびセキュリティのベストプラクティスに対する確かな理解
  • 優れた問題解決能力およびチーム指向の環境で協力的にリーダーシップを発揮できる能力
  • チーム内言語は主に英語となりますが、社内関係部門と日本語でコミュニケーションをとることが求められます。

 

【歓迎要件】

  • AWS Solutions Architect certifications or knowledge on par with those
  • Certified Kubernetes Administrator or knowledge on par with those
  • Familiar with scripting languages (Shell, Python, Golang)
  • Familiar with extended infrastructure-related tooling such as Ansible or Chef
  • Experience in working with large software systems developed on Unix/Linux
  • Experience of working with monitoring and metrics systems (e.g Grafana, Datadog, etc.)
  • Experience in leading teams through incident response and post-mortem analysis
  • Experience in working closely together with development, product and business teams
  • Bi-lingual (business English level& Japanese daily conversation level or English daily conversation level & Japanese native level)

 

  • AWS Solutions Architectの認定資格 または同等の知識
  • Certified Kubernetes Administratorの認定資格 また同等の知識
  • Shell, Python, Golang などのプログラミング言語の経験
  • Ansible, Chefなどの拡張インフラ関連ツールの経験
  • Unix/Linux上で開発された大規模なソフトウェアシステムの運用経験
  • モニタリングおよびメトリクスシステム(例:Grafana、Datadogなど)の管理運用経験
  • インシデント対応と事後分析を通じてチームをリードした経験
  • Engineering, Product, Businessチームなどと連携しながら業務を進めた経験
  • バイリンガル(ビジネス英語レベル&日本語の日常会話レベル または 英語の日常会話レベル&日本語のネイティブレベル)

 

【求める人物像】

  • You are comfortable at explaining complex recommendations to engineering and infrastructure teams, while discussing technical trade-offs in product development with other work colleagues.
  • You are highly resourceful, analytical, and have a combination of focus, flexibility, self-motivation, and integrity.
  • Our team values communication with candor (openness, frankness, honesty) and the 4 Agile Values to ensure everybody can grow and progress together as well as support the company's CREDO and values, and you are comfortable to work in such an environment.

 

  • Engineering, Infrastructureチームなどとプロダクト開発における技術的課題を議論しながら、複雑な提案を分かりやすく説明できる方
  • 柔軟性, 論理的思考, 自発性, 誠実さを持っている方
  • 私たちのチームは、会社の理念やバリューに貢献しながら、チーム全員が切磋琢磨し成長していくため、オープンで率直なコミュケーションとアジャイルの価値観を重視しています。とても働きやすい環境です。

「AIを用いた社会課題解決を通じて、幸せな社会を実現する」をミッションに、介護、人材、金融、医療、製造、流通など複数領域に横断して、複合的に社会課題の本質的解決を目指すAIスタートアップです。ビジネスモデルとしては主にプロジェクト型とプロダクト型に分かれ、プロジェクト型では機械学習エンジニアとコンサルタントがビジネス課題の発見から学習モデルによる解決まで、プロダクト型では発見した課題とそれを解決する学習モデルを用いたより普遍的で広範なソリューション提供のためのSaaSプロダクトを開発しています。

View Exawizards's company page

↑ Back to top ↑

Senior Site Reliability Engineer at Exawizards
APPLY NOW  ➜