“にゃんでプライマリーでダンプしてにゃかったんだって話にゃんですけど、プライマリでダンプするとDBが重くにゃってそれこそレプリケーションに遅延が出るからって言う”
https://discord.com/channels/891696148849508423/891696149319262293/894152097161965598
“あと、レプリカに不整合が発生したってどうして気づかにゃかったんだって話については、不整合を修正した(修正されたとは言ってにゃい)と言うbotの通知をみてそれを完全に信じてたのと、不整合が発生してもPostgreSQLはDBを再起動するまでは正しい動作をしているように振る舞うのでエラーがそもそも発生していにゃかった”
https://discord.com/channels/891696148849508423/891696149319262293/894152631138795560
“3箇所にバックアップしてたんだけど、そのバックアップ元が東京サーバー中心だったのね
それで、東京サーバーがその時期ぐらいに仙台に移動ににゃったと思うんだけど、それでバックアップのうち1つが回線変更の関係でしばらく通信できにゃくにゃって最新の情報を取得できてにゃかったわけ
そして残りの二つはbtrfsでスニャップショットを撮ってたんだけど、東京サーバーがDDoSで長期間落ちたタイミングでプライマリとの不整合が発生したせいかスニャップショット作成のフローが走らにゃくにゃって最終が4/16
そして今回プライマリがAPIに大量にリクエストが飛んできたことによってフリーズして、ローカルのレプリケーションが追いつかにゃくにゃって停止、その後DBが破損したと勘違いしたプライマリの監視プログラムが壊れた東京サーバーのスニャップショットをrsync経由でプライマリに上書き”
https://discord.com/channels/891696148849508423/891696149319262293/894151100561772574
しがないMastodon/Misskeyフォーク開発者