(Translated by https://www.hiragana.jp/)
[2ページ] SREの人気記事 1136件 - はてなブックマーク

検索けんさく対象たいしょう

ならじゅん

ブックマークすう

期間きかん指定してい

  • から
  • まで

41 - 80 けん / 1136けん

SREの検索けんさく結果けっか41 - 80 けん / 1136けん

  • 運用うんよう組織そしき」のかんがかた設計せっけい運用うんよう組織そしきろん 2021 / 20210310-ssmjp-operation-organization

    ssmjp ssmonline #8 "だいさんかいはたのさんさい オンライン"( https://ssmjp.connpass.com/event/206074/ )での発表はっぴょう資料しりょうです。 (運用うんよう設計せっけいラボ合同ごうどう会社かいしゃ 波田野はたの裕一ひろいち)

      「運用組織」の考え方と設計 〜 運用組織論 2021 / 20210310-ssmjp-operation-organization
    • AWSコスト削減さくげんとリソース管理かんり | 外道げどうちちたくみ

      クラウド使づかいなエンジニアの皆様みなさま猛暑もうしょえんやすちゅういかがおごしですか。上層じょうそうからインフラコスト削減さくげんきつけられてはおりませんでしょうか。 今回こんかいはおそらくはじめてコスト削減さくげんについてAWSをじくいていきますが、かんがかたはどこの環境かんきょうでもたりよったりなのでなにかしらのしになればとおも次第しだいであります。 目次もくじ ながいです。ひきかえしたほうがいいぞ! コミュニティにささげます AWSの売上うりあげ コスト削減さくげんとは さんだい使命しめい コスト状況じょうきょう整理せいり Load Balancer 参考さんこうリンク 統合とうごうによる削減さくげん EC2 Autoscaling 参考さんこうリンク 情報じょうほう整理せいり ふるいインスタンスタイプの変更へんこう スケジュールの調整ちょうせい スポットインスタンスの適用てきよう 軽量けいりょうインスタンスの統合とうごう・サーバーレス アプリケーション処理しょり軽減けいげん EC2 EBS EBSはたか不要ふようEBSを削除さくじょ・スナップショット ボリュームタイプの変更へんこう EC2 AMI NAT Gatew

        AWSコスト削減とリソース管理 | 外道父の匠
      • 翻訳ほんやく記事きじ】デプロイ戦略せんりゃく定義ていぎ - そこに仁義じんぎはあるのか(かり)

        この記事きじは2017/11の以下いかのブログ記事きじ翻訳ほんやくです。 blog.itaysk.com まずはじめに、翻訳ほんやくこころよ許可きょかしていただいた@itayskさんに感謝かんしゃいたします。 3ねんまえ記事きじですが、デプロイ戦略せんりゃくについてここまで網羅もうらてきにまとめられた記事きじ日本語にほんごつけられなかったので翻訳ほんやくしてみようとおもいました。 はじめての翻訳ほんやく記事きじであり、かつ翻訳ほんやく多少たしょう意訳いやくふくんでいます。わたし翻訳ほんやくミスがある可能かのうせい十分じゅうぶんにご了承りょうしょうください。 なに間違まちがいやわかりにくいところがあれば、コメントいただけますとさいわいです。 無謀むぼうなデプロイ (Reckless Deployment) ローリングアップグレード (Rolling Upgrade) ヘルスチェックとかん ロールバック 後方こうほう互換ごかんせい ちなみに ブルーグリーンデプロイ (Blue/Green Deployment) ドレイン スイッチバック ステージ ちなみに カナリアデプロ

          【翻訳記事】デプロイ戦略の定義 - そこに仁義はあるのか(仮)
        • 社内しゃないようGitHub Actionsのセキュリティガイドラインを公開こうかいします | メルカリエンジニアリング

          この記事きじは、Merpay Tech Openness Month 2023 の4にち記事きじです。 こんにちは。メルコインのバックエンドエンジニアの@goroです。 はじめに このGitHub Actionsのセキュリティガイドラインは、社内しゃないでGithub Actionsの利用りよう先駆さきがけ、社内しゃない有志ゆうしによって検討けんとうされました。「GitHub Actionsを使つかうにあたりどういったてん留意りゅういすれば最低限さいていげん安全あんぜんせい確保かくほできるか学習がくしゅうしてもらいたい」「定期ていきてきほんドキュメントを見返みかえしてもらい自分じぶんたちのリポジトリーが安全あんぜん状態じょうたいになっているか点検てんけんするさい役立やくだててもらいたい」というおもいにもとづいて作成さくせいされています。 今回こんかいはそんなガイドラインの一部いちぶを、社外しゃがい方々かたがたにも役立やくだつとおも公開こうかいすることにしました。 ガイドラインにおける目標もくひょう このガイドラインは事前じぜんに2段階だんかい目標もくひょう設定せっていして作成さくせいされています。まずだい1に「つね達成たっせいしたいこと

            社内用GitHub Actionsのセキュリティガイドラインを公開します | メルカリエンジニアリング
          • コンテナ研修けんしゅう(Kubernetesへん)【MIXI 23新卒しんそつ技術ぎじゅつ研修けんしゅう

            23新卒しんそつ技術ぎじゅつ研修けんしゅう実施じっししコンテナ研修けんしゅう(Kubernetesへん)の講義こうぎ資料しりょうです。 動画どうが:https://youtu.be/Dk0isJQ6a80 こちらは後編こうへんになります。前編ぜんぺんはこちら:https://speakerdeck.com/mixi_engineers/2023-container-t…

              コンテナ研修(Kubernetes編)【MIXI 23新卒技術研修】
            • SadServers - Linux & DevOps Troubleshooting Interviews

              "Like LeetCode for Linux" Capture The Flag challenges. Train and prove your debugging skills. Practice for your next SRE/DevOps interview. Get a full remote Linux server with a problem and fix it.

              • ネットワークが劣悪れつあく環境かんきょう再現さいげんする方法ほうほう

                目的もくてき アプリケーションが通信つうしん失敗しっぱいしたさいのテストをおこないたい れい. 「通信つうしん失敗しっぱいした場合ばあいさい取得しゅとくボタンが表示ひょうじされること」など 方法ほうほう1. Chrome DevTools を使つかう https://developer.chrome.com/docs/devtools/network/reference?hl=ja#throttling 任意にんい設定せってい追加ついかして使用しようすることができる メリット PCとモバイルデバイスの両方りょうほう使用しよう可能かのう 新規しんきにアプリケーションをインストールする必要ひつようい デメリット パケロスりつなどを設定せっていできない Android, iOS のネイティブアプリでは使用しようできない 方法ほうほう2. Network Link Conditioner を使用しようする Network Link Conditioner は Apple が提供ていきょうしているネットワークユーティリティツール 使用しよう手順てじゅんとう以下いかのサイトがかりやす

                  ネットワークが劣悪な環境を再現する方法
                • https://twitter.com/matsuu/status/1586362867506327552

                    https://twitter.com/matsuu/status/1586362867506327552
                  • 衝撃しょうげき】AWSのRDSがデータをうしなわないBlue/Greenデプロイに対応たいおうしました #reinvent | DevelopersIO

                    最近さいきんは、データベースもB/Gデプロイできるらしいよ?」 「そりゃそうやろ。B/Gデプロイなんて、最近さいきんたりまえ……… へ?DBが?無理むりでしょ?ほぇ?どういうこと?」 最初さいしょアップデートのタイトルをたときの、ハマコーの率直そっちょく感想かんそうです。 Blue/Greenデプロイは、現行げんこうバージョンのトラフィックをかしたまましんバージョンを動作どうさ確認かくにんし、問題もんだいなければしんバージョンをリリースするという、最近さいきん安全あんぜんなデプロイの概念がいねんにおいてくてはならないものです。 同時どうじ新旧しんきゅうバージョンを稼働かどうさせるため、基本きほんてきにはステートレスなアプリケーション・サーバーにおいて利用りようするものという固定こてい概念がいねんがあったのですが、それをデータベースにたいして既存きそんのAWSの技術ぎじゅつわせつつAWSらしいマネージドな仕組しくみで解決かいけつしようという、意欲いよくてきなリリースです。制約せいやく事項じこうもそれなりにあるので、みなさんの運用うんようワークロードにてはまるかは、事前じぜん検証けんしょうが必

                      【衝撃】AWSのRDSがデータを失わないBlue/Greenデプロイに対応しました #reinvent | DevelopersIO
                    • SREやクラウドエンジニアがむとさげなほんまとめ - Qiita

                      いちねんはんぐらいまえにアプリケーションエンジニアからSREにコンバートした筆者ひっしゃが、いまやくってるなぁっていうほん紹介しょうかいします。アプリケーションコードをいてるときはしたのレイヤの技術ぎじゅつ興味きょうみなかったんですが、あらためて勉強べんきょうしてみるとたのしいです。 コンピュータシステム クラウド全盛ぜんせいとはいえ、コンピュータの仕組しくみはおさえておくと役立やくだちます。コレけいほんはわりとしょうむずかしいものがおおいですが、個人こじんてきたのしくめたほん紹介しょうかいします。 Raspberry Piでまなぶコンピュータアーキテクチャ Raspberry Piと銘打めいうたれてますが、コンピュータアーキテクチャの歴史れきしてき背景はいけいまえて解説かいせつされています。プロセッサ・メモリ・ストレージ・ネットワーク・OS・プログラミングなど、コンピュータ単体たんたい基本きほんてき知識ちしきまなべます。 歴史れきしをあわせてることができるため、知的ちてき好奇心こうきしんがおおいに刺激しげきされ、たのしくむことができます。このほんむずかしくかんじ

                        SREやクラウドエンジニアが読むと良さげな本まとめ - Qiita
                      • Treasure Data を退職たいしょくしました - k0kubun's blog

                        やく5ねん5かげつはたらいたTreasure Dataを7/22に退職たいしょくした。7/25からShopifyに入社にゅうしゃし、RustでJITコンパイラを開発かいはつしてRubyを高速こうそくする仕事しごとをする。 仕事しごととしてやりたい分野ぶんやわってきて自分じぶん今回こんかい転職てんしょくしたけど、とても会社かいしゃなので、この記事きじがTreasure Data (以下いかTD) ではたらくことに興味きょうみがあるひと参考さんこうになればいとおもっている。*1 5ねん勤続きんぞく記念きねんにいただいたトロフィー やっていたこと APIチーム 元々もともとTDにはJavaで分散ぶんさんシステムをきたくて入社にゅうしゃしたのだが、TD入社にゅうしゃまえとくにそういう経験けいけんがあるわけでもなくおもにRailsをやっていたこともあり、Railsでプラットフォームを開発かいはつするチームにはいった。基盤きばん開発かいはつをやりたいとおもいながらサービス開発かいはつしゃとして最初さいしょはたらき、のち基盤きばん開発かいはつチームにジョインするみたいな過去かこ経験けいけんがあったので、今回こんかいもそういうかんじでいけるとかんがえていた。

                          Treasure Data を退職しました - k0kubun's blog
                        • Webサービスの障害しょうがい対応たいおうのときの思考しこう過程かてい - ぱいぱいにっき

                          こってほしくはないのですが、あらゆるWebサービスは完璧かんぺき動作どうさする状態じょうたい維持いじすることはむずかしく、やはり障害しょうがい対応たいおう・トラブルシューティングといった作業さぎょう発生はっせいします。 筆者ひっしゃ普段ふだん仕事しごと障害しょうがい対応たいおう不幸ふこうなことによくやるのですが、障害しょうがい対応たいおうのスキルというのはスピードや判断はんだん正確せいかくさがもとめられるせいか、いままでやったことがあるひと・ノウハウがあるひと集中しゅうちゅうし、それ以外いがいひとながめるだけ・あとからログを見返みかえすだけの状態じょうたいによくおちいることがあります。 これはWebサービスを開発かいはつ運用うんようするチームとしてみたときにそういった苦労くろう特定とくていひと集中しゅうちゅうするのはくないので、それを緩和かんわする目的もくてきとして、筆者ひっしゃ障害しょうがい対応たいおうかんがえていることを記述きじゅつしてみます。なお、これが唯一ゆいいつ正解せいかいではないとはおもっているので、ツッコミや、自分じぶんはこうかんがえているよというのをおしえていただければさいわいです。 具体ぐたいてき手法しゅほうけて思考しこう方法ほうほうべているのは、障害しょうがいというのはパター

                            Webサービスの障害対応のときの思考過程 - ぱいぱいにっき
                          • CIOpsとGitOpsのはなし - inductor's blog

                            はじめに GitOpsという言葉ことばまれたのが自分じぶんかぎり2017ねんごろなのですが、なかにあるCI/CDの仕組しくみはまだほとんどがCIOpsもしくは手動しゅどうのオペレーションによってっているとおもっていて、かつては自分じぶんもそうだったのですが「Gitで管理かんりされていればGitOpsなんでしょ?」という勘違かんちがいを払拭ふっしょくしたくてこのエントリーをいています。 GitOpsとCIOpsは全然ぜんぜんちがう まず前提ぜんていとしてGitOpsの明確めいかく定義ていぎらないという場合ばあい、あなたのおもう「Gitを契機けいきとした自動じどうデプロイの仕組しくみ」は基本きほんてきにはCIOpsです。GitOpsとCIOpsはおもったよりもおおきなちがいがあって、そもそもGitOpsの必要ひつようせいかっていない場合ばあい自動じどうによって成立せいりつしているデプロイはCIOpsが基本きほんです。 CIOpsとGitOpsの一番いちばんちがいは、PushがたかPullがたかである CIOpsの場合ばあいたとえばGitHub

                              CIOpsとGitOpsの話 - inductor's blog
                            • 入門にゅうもん監視かんしやSREほんまな障害しょうがい対応たいおうフォーメーション - An Epicurean

                              システム障害しょうがいこったときにどういう体制たいせいのぞむか、エンジニア個人こじん障害しょうがい直面ちょくめんしたときにどのような役割やくわりつのがいのか。組織そしきによって色々いろいろなパターンはあるでしょう。しかし、さいわいにも「入門にゅうもん 監視かんし」やSREほんかれている4つの役割やくわり分担ぶんたん浸透しんとうしているので、それをベースにかんがえるのがファーストステップとしてはいのではないでしょうか。 入門にゅうもん 監視かんし ―モダンなモニタリングのためのデザインパターン 作者さくしゃ:Mike Julianオライリー・ジャパンAmazon SRE サイトリライアビリティエンジニアリング ―Googleの信頼しんらいせいささえるエンジニアリングチーム オライリージャパンAmazon ただ、ちいさな組織そしきでは障害しょうがいに4にんもすぐにそろわない場合ばあいもあるでしょうし、そもそも4にんもスタッフがいない、と場合ばあいもあるでしょう。そういった場合ばあいにもどうすればいいのかかんがえていきます。 役割やくわり分担ぶんたん基本きほん入門にゅうもん 監視かんし」に

                                入門監視やSRE本に学ぶ障害対応フォーメーション - An Epicurean
                              • AWSの開発かいはつ環境かんきょう利用りよう時間じかんをGoogleカレンダー連動れんどうさせたら開発かいはつチームが自由じゆう使つかえてコスト70%削減さくげん!! - Uzabase for Engineers

                                こんにちはNewsPicks SREチームの美濃部みのべです。 NewsPicksのSREのミッションの1つに「コストを適正てきせいする」というものがあります。サービスの規模きぼ拡大かくだい比例ひれいしてインフラコストがえないようにし、売上うりあげたいするコストの割合わりあいひく維持いじしていくのがミッションになります。 今回こんかいはこのミッションにたいするアクションとして開発かいはつ環境かんきょうのインフラコストを適正てきせいしたはなしをします。 NewsPicksの開発かいはつ環境かんきょうについて 開発かいはつ環境かんきょうのコストをどうやって適正てきせいしたか 稼働かどう時間じかん対応たいおう実現じつげんする仕組しくみについて 実際じっさいどれくらい削減さくげんできたのか まとめ NewsPicksの開発かいはつ環境かんきょうについて まず、NewsPicksの開発かいはつ環境かんきょうについて概要がいよう説明せつめいします。 インフラ基盤きばん本番ほんばん環境かんきょう同様どうようにAWSを利用りようしており開発かいはつチームは現在げんざい10以上いじょうのチームが存在そんざいし、それぞれのチーム専用せんよう用意よういされた開発かいはつ環境かんきょう利用りようしています。 2ねんほどまえまでは開発かいはつ

                                  AWSの開発環境の利用時間をGoogleカレンダー連動させたら開発チームが自由に使えてコスト70%削減!! - Uzabase for Engineers
                                • 運用うんようたずさわるひと全員ぜんいんてほしい! Ops Guidesの紹介しょうかい - Qiita

                                  PagerDuty Advent Calendarの8にち今日きょうはOps Guidesのおはなしです。 うちはこうだけど、はどうやってるんだろう? 普段ふだんから運用うんようかかわっていると、ふとした瞬間しゅんかんに「そういえば会社かいしゃではどういう運用うんようをやっているんだろう?」とになること、ありませんか? そのきっかけは「本当ほんとうになんとなく」といったものから「上手うまくいかない運用うんようにフラストレーションがまって」というどすぐろいものまで色々いろいろあるとおもいますが、いずれにせよ「会社かいしゃいところをれて、自分じぶんたちの運用うんよう改善かいぜんしたい」という気持きもちからているのは間違まちがいないでしょう。 だからこそ、いろんなミートアップに参加さんかして発表はっぴょういたり、懇親こんしんかいはなしてみたり、Xにしだながされているいろんなポストをんで事例じれいまなぶわけです。 ベストプラクティスをまなびたい! このようなみはとてもいことですし、是非ぜひとも継続けいぞくして情報じょうほう収集しゅうしゅう

                                    運用に携わる人全員に見てほしい! Ops Guidesの紹介 - Qiita
                                  • 「もうさばきれない」アクセスが激増げきぞうしたECプラットフォームにおける負荷ふか対策たいさく - BASEプロダクトチームブログ

                                    はじめに CTOの川口かわぐち (id:dmnlk) です。 5月にオンラインmeetupをさせていただきそのなかで「具体ぐたいてき負荷ふか対策たいさくかんしては開発かいはつブログで!」とっていたけんですがづいたらもう9がつになりかけていました。 コロナにおいてネットショップ作成さくせいサービス「BASE」の利用りようしゃさま急増きゅうぞうしました。 www.nikkei.com 5 がつには 100 まんショップをえるショップオーナーさまにご利用りようしていただいております。 いままで EC 事業じぎょうおこなっていなかった飲食いんしょくてんさま様々さまざま業種ぎょうしゅほう利用りようをはじめていただき、ショップオーナーさま購入こうにゅうしゃさまども短期たんき見通みとおしでは想定そうていをしていないアクセスが発生はっせいしました。 その途中とちゅうでシステムとして対応たいおうしきれないめんもあり、アクセス負荷ふかによるサービスの不安定ふあんていまね皆様みなさまにはご不便ふべん販売はんばい時間じかん変更へんこうしていただくおねがいなどをしてしまい大変たいへんもうわけありませんでした。 現在げんざいでは安定あんていしておりますが、その

                                      「もうさばき切れない」アクセスが激増したECプラットフォームにおける負荷対策 - BASEプロダクトチームブログ
                                    • 次世代じせだい監視かんし技術ぎじゅつ - Telemetry技術ぎじゅつのご紹介しょうかい - NTT Communications Engineers' Blog

                                      こんにちは、イノベーションセンターの三島みしまです。 ほん記事きじでは、次世代じせだい監視かんし技術ぎじゅつとして期待きたいされるTelemetry技術ぎじゅつについてご紹介しょうかいします。 この記事きじについて ほん記事きじでは下記かきの3てん共有きょうゆうします。 従来じゅうらい監視かんし技術ぎじゅつかかえる課題かだいとTelemetryの可能かのうせい Telemetryの技術ぎじゅつ概要がいようと、各社かくしゃ実装じっそうじょうきょう NTT Comのネットワークじょう検証けんしょうられた知見ちけんと、期待きたいされるユースケース 従来じゅうらい監視かんし技術ぎじゅつかかえる課題かだい ネットワーク運用うんようにおいては、障害しょうがい検知けんちやパフォーマンス分析ぶんせきのため監視かんし技術ぎじゅつ重要じゅうようとなります。 従来じゅうらいのネットワークでは、SNMP(Simple Network Management Protocol)とばれる技術ぎじゅつひろ利用りようされています。 SNMPの仕組しくみを1にしめします。SNMPはUDPベースなネットワーク監視かんし技術ぎじゅつです。データモデルはMIB(Management Information Base)と

                                        次世代の監視技術 - Telemetry技術のご紹介 - NTT Communications Engineers' Blog
                                      • 障害しょうがい対応たいおうプロセスを改善かいぜんしてきたはなし - 10X Product Blog

                                        障害しょうがいプロセスを改善かいぜんしてきたはなし こんにちは。Reliability & Securityチームに所属しょぞくするSoftware Engineerの@sota1235です。 今回こんかいは10Xないにおける障害しょうがい対応たいおうプロセスの改善かいぜんをご紹介しょうかいします。 いま完成かんせいけいではなくみちなかばではありますがこの半年はんとし ~ 1ねんおおきく進化しんかしたのでおなじくらいのフェーズの会社かいしゃこまってるほうがいたら参考さんこうにしてみてください! ちなみにささめごとですが去年きょねんの5/26にこんな投稿とうこうをしてたのでやっと伏線ふくせん回収かいしゅうするかたちとなります(※ ドヤがおではありません)。 目次もくじ こんなかんじで紹介しょうかいしていきます。 目次もくじ 障害しょうがい対応たいおうプロセスの改善かいぜんった背景はいけい 課題かだい1. 障害しょうがい報告ほうこくフォーマットが統一とういつされていない 課題かだい2. 障害しょうがいほうのクオリティの差異さいおおきくのちからがえりがむずかしい 課題かだい3. 障害しょうがい対応たいおうしゃ特定とくていひとかたよだいいち改善かいぜん 改善かいぜん1. 障害しょうがい報告ほうこくしょのフォーマット更新こうしん 改善かいぜん2. S

                                          障害対応プロセスを改善してきた話 - 10X Product Blog
                                        • Googleのソフトウェアエンジニアリング - 技術ぎじゅつメモ

                                          600ページ以上いじょうあり結構けっこうながいので方針ほうしんとしてはだいだけはいちとおんでみて、そのさきかくしょう結論けつろんからんでいき、になった部分ぶぶんだけさかのぼってひろみしていく戦略せんりゃくでいくほうさそう。

                                            Googleのソフトウェアエンジニアリング - 技術メモ
                                          • 読書どくしょとは、能力のうりょく知識ちしきではなく いを獲得かくとくするための行為こうい』みたいな内容ないよう登壇とうだんしました。 - じゃあ、おうちでまなべる

                                            問題もんだい解決かいけつする能力のうりょくたしかに重要じゅうようですが、それ以上いじょうに、なに本当ほんとう重要じゅうよう問題もんだいなのかを見極みきわめ、それを明確めいかく設定せっていする能力のうりょく不可欠ふかけつです。いを適切てきせつ定義ていぎできなければ、どんなに高度こうど解決かいけつ技術ぎじゅつっていても、そのちから十分じゅうぶん発揮はっきされません。また、だれにとって適切てきせついなのかもかんがえる必要ひつようがあります。問題もんだい解決かいけつ過程かていにおいて、問題もんだいそのものの本質ほんしつ正確せいかく把握はあくし、適切てきせついをてることは重要じゅうようです。 イシューからはじめよ――知的ちてき生産せいさんの「シンプルな本質ほんしつ作者さくしゃ:安宅あたか和人かずと英治えいじ出版しゅっぱんAmazon 概要がいよう SREたちの廊下ろうか〜あなたの現場げんばでのなやみ、あのほんにヒントがあるかも〜にて「しょてよ、現場げんばよう - このSREほんがすごい!2024ねん LTばん」 というテーマで登壇とうだんしました。のイベントは2024ねん1がつまつ注目ちゅうもくあつめた『このSREほんがすごい!2024年版ねんばん』をテーマにしたもので、おおくの参加さんかしゃとパネルディスカッションのスピーカーであるT

                                              『読書とは、能力、知識ではなく 問いを獲得するための行為』みたいな内容で登壇しました。 - じゃあ、おうちで学べる
                                            • メルカリShops の CI/CD と Pull Request 環境かんきょう | メルカリエンジニアリング

                                              こんにちは!ソウゾウの Software Engineer の @dragon3 です。 連載れんさい:「メルカリShops」プレオープンまでの開発かいはつ裏側うらがわの8にち担当たんとうさせていただきます。 この記事きじでは、メルカリShops 開発かいはつにおいて、日々ひびバリバリに利用りようされている CI/CD 環境かんきょうと Pull Request ごとのデプロイ環境かんきょうについて紹介しょうかいします。 CI/CD 環境かんきょう メルカリShops では、CI/CD (テスト・ビルド・デプロイ)やその自動じどうのために GitHub Actions を使つかっており、ほとんどのワークフロー・ジョブを Self-hosted runners で実行じっこうしています。 Self-hosted runners は、専用せんようの VPC ネットワーク ないの GCE インスタンスじょううごかしており、Managed Instance Group とう使つかい、そのプロビジョニングや起動きどう停止ていしとう

                                                メルカリShops の CI/CD と Pull Request 環境 | メルカリエンジニアリング
                                              • WebRTC配信はいしんシステムをAWSからオンプレミスにえているはなし

                                                2021ねん7がつ27にち DMM meetup #31 での発表はっぴょう内容ないようです

                                                  WebRTC配信システムをAWSからオンプレミスに切り替えている話
                                                • システム障害しょうがい対応たいおう演習えんしゅう実施じっししたはなし|NAVITIME_Tech

                                                  こんにちは、ネコメタラーです。ナビタイムジャパンで地点ちてん検索けんさく基盤きばん開発かいはつマネジメントを担当たんとうしています。きなバンドは Arch Enemy です。 システム運用うんようかかわるひとであれば、「システム障害しょうがい」というとみみいたほうおおいかとおもいます。システム障害しょうがいこさないにしたことはないですが、まんいちシステム障害しょうがい発生はっせいしたとき、その行動こうどう選択せんたくはサービスの信頼しんらいせいおおきく左右さゆうすることになります。 迅速じんそく復旧ふっきゅうさせることはもちろんですが、適切てきせつ情報じょうほう公開こうかいによってユーザーの不安ふあん払拭ふっしょくするといったコミュニケーションも重要じゅうようなポイントです。しかし、緊急きんきゅう事態じたいというプレッシャーをけながら最適さいてき行動こうどう選択せんたくすることは容易よういではありません。 わたし所属しょぞくしているチームでは、Web API サーバソフトウェアから全文ぜんぶん検索けんさくミドルウェアまでふくめた開発かいはつ運用うんようおこなっており、幅広はばひろいトラブル対応たいおうスキルが必要ひつようになります。トラブル対応たいおうのスキルをったベテ

                                                    システム障害対応演習を実施した話|NAVITIME_Tech
                                                  • SRE導入どうにゅう: システムを安定あんていさせる4000まんえん魔法まほうつぼ - MonotaRO Tech Blog

                                                    こんにちは。鈴木すずきです。 ここにシステムを安定あんていさせる4000まんえん魔法まほうつぼがあるとします。 あなたならいますか。 はじめに SREやればいいのに 4000まんえん魔法まほうつぼ なぜモノタロウはSREにむのか 10ふんちるとすうひゃくまんえんすうせんまんえん影響えいきょう不安定ふあんていなシステムを札束さつたばでしばいたことがある だい規模きぼ複雑ふくざつ旧来きゅうらい運用うんよう方法ほうほう無効むこうする SREの導入どうにゅうによる効果こうか 会話かいわなかに「SLO」が登場とうじょうするようになった システムの状態じょうたいふか理解りかいできるようになった オンコールの初動しょどう対応たいおうはや精緻せいちになった SREのむずかしさ 組織そしき横断おうだんてき活動かつどうむずかしさ 安定あんていてき時間じかん使つかうことのむずかしさ 利用りようするツールやサービスのむずかしさ どのようにSREを導入どうにゅうしたのか Googleの最新さいしんSREをまなんだ CUJを定義ていぎした SLIとSLOを定義ていぎした Cloud Monitoringでダッシュボードを作成さくせいした やくつかもしれないはなし

                                                      SRE導入: システムを安定させる4000万円の魔法の壺 - MonotaRO Tech Blog
                                                    • Kubernetesにこしえて入門にゅうもんするかたけのロードマップ - Qiita

                                                      背景はいけい 最近さいきん、「コンテナはもうわかってきたので、これからKubernetesについてこしえて勉強べんきょうしたいが、どのように勉強べんきょうすればいいかわからない」という相談そうだんをいただくことがすごくおおくなった。 必要ひつようおうじて必要ひつようなリソースの挙動きょどうなどを調しらべてきたし、ぼく自身じしんらないことばかりなので、すべてをつたえることはできない。 とはいえ、「入門にゅうもんしにくいサービスがびにくい」というのは、間違まちがいないので、Kubernetesに入門にゅうもんするじょうでこの順番じゅんばん学習がくしゅうしたら、基本きほんてき内容ないようにつけられるのではないかというロードマップをひと公開こうかいしておくことで、これから業務ぎょうむでKubernetesを理解りかいしていく必要ひつようがあるほう最初さいしょいちたすけられるかもしれないとおもい、公開こうかいすることとした。(このQiitaのリンクをわたすだけで質問しつもん回答かいとうできるという状態じょうたいつくりたいという観点かんてんもある。) 自分じぶんいまの、Kubernetesにたいする理解りかいをうまく表現ひょうげんできてい

                                                        Kubernetesに腰を据えて入門する方向けのロードマップ - Qiita
                                                      • Goで実装じっそうされた高速こうそくな
仮想かそう待合室まちあいしつサーバの実装じっそう詳解しょうかい

                                                        ペパボのテックカンファレンスではなしました。

                                                          Goで実装された高速な
仮想待合室サーバの実装と詳解
                                                        • マルチAWSアカウント環境かんきょうのセキュリティって無理むりゲーじゃね?

                                                          対象たいしょう読者どくしゃ 様々さまざまなプロダクトへ AWS アカウントや環境かんきょう提供ていきょうする SRE / CCoE チームを想定そうていしています。 マルチAWSアカウント環境かんきょう SRE / CCoE はかくプロダクトが安全あんぜんかつ便利べんりに AWS を利用りようできるよう、AWS アカウントの設定せっていはらしや周辺しゅうへんコンポーネントの提供ていきょうだい・ID管理かんり・ログ収集しゅうしゅう etc...)をおこないます。 個別こべつプロダクトの基盤きばん設計せっけい構築こうちくおこないません。 わたし担当たんとう案件あんけんでは 100 以上いじょうの AWS アカウントを提供ていきょうしています。これでもおおいとはえず、たとえば NTT ドコモでは 2,000 以上いじょうの AWS アカウントを管理かんり[1]しているそうです。 セキュリティ対応たいおう方針ほうしん セキュリティグループのぜん開放かいほうや S3 バケットのパブリック公開こうかいなど、AWS リソースの不適切ふてきせつ設定せっていについての対応たいおうかんがえます。 ゲートがた IAM ポリシーやサービスコントロールポリシー (SCP) で

                                                            マルチAWSアカウント環境のセキュリティって無理ゲーじゃね?
                                                          • 【いでよ障害しょうがい対応たいおう太郎たろう我々われわれはインシデントにどうっているのか 〜社内しゃない障害しょうがい対応たいおうリストき〜

                                                            「なんかアプリでインシデントきてエンジニアがどこかで対応たいおうしてるらしいよ」 「インシデントのおらせってだれがどうやってすんだっけ?」 「インシデントの復旧ふっきゅう作業さぎょうっていまどれくらいわってる?」 「あのインシデントってかえりしたっけ?」 「たようなインシデント、まえ対応たいおうしたような、していないような」 このような会話かいわおぼえはありませんか? FiNC Technologiesしゃ (以下いかFiNC) ではいままで インシデント対応たいおうをしていてもチームない対処たいしょしようとしてしまい、ひとづけないインシデント対応たいおう仕方しかたにフォーマットがなく、迅速じんそく対応たいおうやお客様きゃくさまへの報告ほうこくができないインシデントのがえりが実施じっしされず、インシデント知見ちけん共有きょうゆうされないという問題もんだいがありました。 それらの問題もんだいきやすく、シェアしやすくする = 統一とういつのチャンネルで情報じょうほう整理せいりし、そこにシェアしやすい空気くうきつくなにをすべきかわ

                                                              【いでよ障害対応太郎】我々はインシデントにどう向き合っているのか 〜社内向け障害対応リスト付き〜
                                                            • SRE 研修けんしゅう

                                                              ! コピーして利用りようしてください ! 文責ぶんせき: @chaspy_ (Takeshi Kondo) take.she12@gmail.com twitter: https://twitter.com/chaspy_ 公開こうかいの Tweet: https://twitter.com/chaspy_/status/1647190440628883461 お仕事しごと依頼いらい: https://chaspy.me/service/ SRE 研修けんしゅう ! コピーして利用りようしてください ! SRE 研修けんしゅう Day0: 概要がいよう 背景はいけい 対象たいしょう かえれるもの / ゴール あつかわないこと プログラム 参考さんこう資料しりょう Day1: 信頼しんらいせいを...

                                                                SRE 研修
                                                              • なぜ使つかわれないダッシュボードがつくられるかというはなし - satoshihirose.log

                                                                はじめに 最近さいきん、ビジネスダッシュボードの設計せっけい実装じっそうガイドブックという書籍しょせき出版しゅっぱんされた。いままであまりなかった視点してんからかれたデータにかんするほん面白おもしろんだ。 ビジネスダッシュボード 設計せっけい実装じっそうガイドブック 成果せいかすデータと分析ぶんせきのデザイン 作者さくしゃ:トレジャーデータ,池田いけだ 俊介しゅんすけ,藤井ふじい 温子あつこ,櫻井さくらい すすむまこと,花岡はなおか あきらしょうおよげしゃAmazon つくったダッシュボードの利用りようすすまず、むなしさをおぼえた経験けいけんがあるひとおおいとおもう。どうしてそうなってしまうのか、自分じぶん経験けいけんもとにまとめたいなとおもったのでまとめる。 なぜ使つかわれないダッシュボードがつくられるか なぜつくられたダッシュボードが使つかわれないかとうと、基本きほんてきにはそのダッシュボードがそんなに必要ひつようなものではないからだ(社内しゃない周知しゅうちがうまくない、ツールの使つかかたがわからないひとおおいなどの理由りゆうもあったりするがここでは無視むしする)。 必要ひつようのないダッシュボードがつくられてしまう状況じょうきょうかんして

                                                                  なぜ使われないダッシュボードが作られるかという話 - satoshihirose.log
                                                                • SRE実践じっせん手引てびき ─ 信頼しんらいせいをどう制御せいぎょするか? からはじめる、現実げんじつてき指標しひょう目標もくひょう設計せっけい計測けいそく - エンジニアHub|Webエンジニアのキャリアをかんがえる!

                                                                  SRE実践じっせん手引てびき ─ 信頼しんらいせいをどう制御せいぎょするか? からはじめる、現実げんじつてき指標しひょう目標もくひょう設計せっけい計測けいそく SREの役割やくわりには、信頼しんらいせい、SLIとSLO、エラーバジェット、トイル、ソフトウェアエンジニアリングといった複数ふくすうのキーワードが存在そんざいするがゆえ、なかなかうまく実践じっせんできない、というこえもあります。本稿ほんこうでは、むずかしくられがちなSREの内実ないじつを、「信頼しんらいせい制御せいぎょ」というコンセプトをじく整理せいりし、ちいさくはじめるいち坪内つぼうちたすくじゅ(ゆううき)さんが解説かいせつします。 こんにちは。SREの研究けんきゅうしゃをやっているゆううき(@yuuk1t)です。 SRE(Site Reliability Engineering)は、従来じゅうらいのオペレーションエンジニア、システム管理かんりしゃ(sysadmin)とばれる人々ひとびとになっていた技術ぎじゅつ領域りょういきあたらしいかたちです。Googleによって提唱ていしょうされ、日本にっぽん国内こくないでも2015ねんごろからWebコンテンツ事業じぎょうしゃのコミュニティを中心ちゅうしんひろられる

                                                                    SRE実践の手引 ─ 信頼性をどう制御するか? から始める、現実的な指標と目標の設計と計測 - エンジニアHub|Webエンジニアのキャリアを考える!
                                                                  • オブザーバビリティ研修けんしゅう実践じっせんへん

                                                                    株式会社かぶしきがいしゃサイバーエージェント AI事業じぎょう本部ほんぶ 2024年度ねんどエンジニア新卒しんそつ研修けんしゅう オブザーバビリティ研修けんしゅう実践じっせんへん一部いちぶ社内しゃないけの内容ないよう

                                                                      オブザーバビリティ研修実践編
                                                                    • カオスエンジニアリングを組織そしきにも適用てきよう。アンチフラジャイルなシステムを目指めざしてユーザベースが発見はっけんした問題もんだいとは? - はてなニュース

                                                                      Netflixがシステム運用うんようれている、カオスエンジニアリング(chaos engineering)という手法しゅほうがあります。たとえば機能きのう冗長じょうちょうしたシステムでも、いざ障害しょうがいきたときにべつ系統けいとう想定そうていどおり機能きのうするかからない。そこで実際じっさいうごいているシステムで意図いとてき障害しょうがいこし、挙動きょどう確認かくにんしてシステムの改善かいぜんにつなげるかんがかたです。 株式会社かぶしきがいしゃユーザベースでは、アンチフラジャイル(antifragile、はん脆弱ぜいじゃく)なシステムを目指めざしてカオスエンジニアリングを導入どうにゅうしています。システムだけでなく、エンジニア組織そしきにおいてもカオスエンジニアリングを応用おうようした改善かいぜんプロセスに着手ちゃくしゅしています。キーパーソンがいなくなってもプロジェクトはうまくうごつづけるか、実際じっさいはずれてもらって確認かくにんするのです。 このチャレンジングなみについて、CTOのはやし尚之なおゆきさんと、システムでも組織そしきでもカオスエンジニアリングを体験たいけんしたエンジニアの

                                                                        カオスエンジニアリングを組織にも適用。アンチフラジャイルなシステムを目指してユーザベースが発見した問題とは? - はてなニュース
                                                                      • 障害しょうがい発生はっせい全員ぜんいん集合しゅうごう? - オンコールアンチパターンからのいち前進ぜんしん - Cybozu Inside Out | サイボウズエンジニアのブログ

                                                                        8がつだというのにすずしいつづきますね。 kintone.comのDevOpsをしている@ueokandeです。 もうすぐAWSばんkintoneのローンチからから2ねん経過けいかしようとしています。 この2年間ねんかん、DevOpsチームではkintone.comのサービス安定あんていやスケーラビリティに注力ちゅうりょくしてきました。 ときには本番ほんばん環境かんきょう障害しょうがい休日きゅうじつ深夜しんや障害しょうがい対応たいおうすることもあります。 kintone.comの障害しょうがいいち対応たいおうは、我々われわれDevOpsメンバーが実施じっししています。 サービスローンチ直後ちょくごは、メンバーのおおくがオンコールに不慣ふなれで、あわてて障害しょうがい対応たいおうしたりうまくすすめられないことがなんもありました。 そこでメンバー全員ぜんいん効率こうりつてき効果こうかてき障害しょうがい対応たいおう目指めざすべく、チームでPagerDutyしゃのIncident Response(非公式ひこうしき日本語にほんごやくばん)をむことにしました。 この記事きじではAWSばんkintoneで実際じっさい体験たいけんした障害しょうがい

                                                                          障害発生!全員集合? - オンコールアンチパターンからの一歩前進 - Cybozu Inside Out | サイボウズエンジニアのブログ
                                                                        • 筋肉きんにくマージはめよう - Qiita

                                                                          追記ついき2 2019/12/04 21:00 こんなよくわからない記事きじをごらんいただきありがとうございます。 この事件じけんこしたのは1ねんまえで、Gitを使つかいはじめて1ヶ月かげつのときに下記かき事件じけんこしてしまっていてとても混乱こんらんしていたのを当時とうじおぼえています。 内容ないようについては、rmをしたかもしれないという記事きじ結果けっかてきになったかもしれませんが、わたし記憶きおくではファイルをした記憶きおくはありません。 ただ、当時とうじ作業さぎょうしていたディレクトリもないのでコマンドを確認かくにんする手段しゅだんがないため一番いちばん濃厚のうこうなrmをしたというのを今回こんかい結論けつろんにしました。 曖昧あいまいさはもうわけありません。 また、意見いけん感想かんそう批評ひひょうにはすべとおさせております。つたわりにくい内容ないようやわかった事実じじつ適宜てきぎ編集へんしゅうしてできるだけみなさんにつたわるよう善処ぜんしょいたしますのでどうぞよろしくおねがいします。 追記ついき2ここまで 追記ついき 2019/12/04 13:00 1.本番ほんばん環境かんきょうでやらかしちゃったひと Adv

                                                                            筋肉マージは辞めよう - Qiita
                                                                          • 監視かんしかんがかた 〜あるいは観測かんそくせいとはなんなのか〜 - estie inside blog

                                                                            みなさん、かんつくってますか? システムをつくったら、そのシステムを監視かんししていく必要ひつようがありますよね。どうやったら「いい監視かんし」がつくれるのでしょうか。「いい監視かんし」とそうでないかんとのちがいとは、いったいなんでしょうか。 いま時代じだい、「監視かんし」ではなくて「観測かんそくせい」、 Observability (o11y) の時代じだいになっていて、いプラクティスやかんがかた色々いろいろとあります。 この記事きじは、かんや o11y についてのかんがかた社内しゃない共有きょうゆうするためいたものを、社外しゃがい共有きょうゆうよう調整ちょうせいなおしたものです。あたらしい Observability の時代じだいを、一緒いっしょきていきましょう。 監視かんしつくろう あなたはシステムをつくりました。そのシステムに「監視かんし」をつけようとおもったとき、最初さいしょにすることはなんでしょうか? まずは、システムをなんらかのツールで監視かんしするところからはじめましょう。やらなきゃはじまらない。 Nagios, Cacti, Mun

                                                                              監視の考え方 〜あるいは可観測性とはなんなのか〜 - estie inside blog
                                                                            • Google、SREほんだいさんだん「Building Secure and Reliable Systems」を無料むりょう公開こうかい

                                                                              Google、SREほんだいさんだん「Building Secure and Reliable Systems」を無料むりょう公開こうかい GoogleはSite Reliability Engineering(SRE)に関連かんれんする書籍しょせきとして、これまで「Site Reliability Engineering」「The Site Reliability Workbook」の2さつ無料むりょう公開こうかいしてきました。 このSREほんだいさんだんとして、Googleは「Building Secure and Reliable Systems」の無料むりょう公開こうかい開始かいししました。 「Site Reliability Engineering」(SRE)とは、GoogleのシニアVPであるBen Treynor提唱ていしょうした、たか信頼しんらいせい性能せいのう発揮はっきするシステムインフラを実現じつげんし、改善かいぜんしていくアプローチのひとつです。 そしてこのアプローチは、前述ぜんじゅつとおり20

                                                                                Google、SRE本の第三弾「Building Secure and Reliable Systems」を無料公開
                                                                              • ひとりよがりのプラットフォーム / For Whom that Platform Runs

                                                                                Talked at CloudNative Days Tokyo 2020 #CNDT2020. Video available at https://event.cloudnativedays.jp/cndt2020/talks/30

                                                                                  独りよがりのプラットフォーム / For Whom that Platform Runs
                                                                                • Retty の Terraform CI/CD 解体かいたい新書しんしょ - Retty Tech Blog

                                                                                  Retty インフラチームの幸田こうだです。 6月に実施じっししたマイクロサービス強化きょうか月間げっかん公開こうかいした記事きじでは、マイクロサービス環境かんきょうを Terraform を利用りようして刷新さっしんしたはなしきました。 engineer.retty.me この記事きじでは前回ぜんかい重複じゅうふくする箇所かしょもありますが、Terraform の CI/CD にフォーカスした内容ないようこうとおもいます。 CI を整備せいびするにあたって意識いしきしたこと 「だれでも」かつ「安全あんぜんに」利用りようできるように CI じょうですべての作業さぎょう完結かんけつさせる Pull Request によるレビュー環境かんきょう整備せいび バージョンアップ作業さぎょう完全かんぜん自動じどう Terraform のディレクトリ構成こうせいについて リポジトリの運用うんようフロー Terraform によるリソースの追加ついか変更へんこう削除さくじょ tfmigrate によるステートファイルの操作そうさ CI で実行じっこうされる job について Pull Request をオープンしたとき P

                                                                                    Retty の Terraform CI/CD 解体新書 - Retty Tech Blog

                                                                                  新着しんちゃく記事きじ