akkinoc.dev

Java Buildpack Memory Calculator を Amazon ECS + AWS Fargate で動かす

2024-05-20T00:00:00+09:00

Spring Boot アプリケーションを Amazon ECS + AWS Fargate で動かした際、
Java Buildpack Memory Calculator が正しく機能していないことに気付き、調査しました。

前提

環境
- Java 17
- Gradle 8.7
- Spring Boot 3.2
Docker イメージビルド方法
- Spring Boot Gradle Plugin の gradle bootBuildImage でビルド
Docker イメージ実行環境
- Amazon ECS + AWS Fargate
(僕はコンテナ技術に明るくありません)

Java Buildpack Memory Calculator とは

Java Buildpack Memory Calculator は、 Java アプリケーションのメモリ配分について、
実行環境のキャパシティ等から最適な値を自動計算し割当ててくれるそうです。
Spring Boot の Maven / Gradle プラグインでイメージビルドすると組み込まれました。

計算式は次のように算出されるようです。

Heap = Total Container Memory - Non-Heap - Headroom
Non-Heap = Direct Memory + Metaspace + Reserved Code Cache + (Thread Stack * Thread Count)

Java Buildpack Reference - Paketo Buildpacks

起きていたこと

ECS タスク定義のメモリ (Task size > memory) は 1GB で設定していたのですが、
コンテナ起動時に流れていたログは次のような内容でした。
(見やすいように適当に改行を入れてます。)

Calculated JVM Memory Configuration:
  -XX:MaxDirectMemorySize=10M
  -Xmx7128493K
  -XX:MaxMetaspaceSize=138570K
  -XX:ReservedCodeCacheSize=240M
  -Xss1M
  (Total Memory: 7574264K, Thread Count: 50, Loaded Class Count: 22051, Headroom: 0%)

Total Memory と -Xmx が 7GB 近くで計算されており、
設定しているメモリキャパシティよりも大きな値が使われていて、
明らかに様子がおかしいです。
何度か再起動すると 3.5GB 前後になったり 1.5GB 前後になったりもしました。

結論 / 解決方法

先に結論を書きます。

ECS タスク定義内のコンテナ定義の方にも
“メモリのハード制限” (Container definitions > memory) を設定することで、
この値が Total Memory の値として採用され、期待通り制御できるようになりました。
(CloudFormation で言うと TaskDefinition > ContainerDefinition > Memory です。)

逆に言うと、これ設定しないと Heap の計算が狂ってしまうので注意したいところです。

ちなみに “メモリのソフト制限” (Container definitions > memoryReservation) という
設定項目もあるのですが、こちらは設定しても解消されませんでした。
(CloudFormation で言うと TaskDefinition > ContainerDefinition > MemoryReservation です。)

以下はこの結論に至るまでに調べたことのメモです。

調べたこと

Total Memory は OS が認識しているメモリサイズと一致するのか？

実行中のコンテナにアタッチして中に潜り free コマンドを実行すると、
こちらも Total = 約 7GB と近い値になりました。
OS が認識しているメモリサイズが採用されているのかなと予想できました。

どうやらホスト側のメモリサイズが見えてしまっており、
これがタスク定義で指定したメモリサイズと一致するとは限らないようです。

同事象の Issue や記事等はないのか？

粘り強く探したら同事象の Issue を見つけ、
Aug 25, 2021 のコメントで今回の解決策に気付きました。

New insights from the AWS support. We’ve been using ECS “wrong” the whole time.
If you specify the limits on the container definition as well everything works like a charm.

Issue #86 Memory calculation on AWS ECS Fargate does not work properly - paketo-buildpacks/libjvm

cloudfoundry/java-buildpack-memory-calculator の Issue を最初に探していたのですが、
paketo-buildpacks/libjvm の方が本体なのでしょうか。
(リポジトリごとの関係の詳細までは深くは調べませんでした。)

どの値が Total Memory として採用されるのか？

paketo-buildpacks/libjvm のソースコードを見ると、
次のファイルを読み取っていそうに見えました。
(雑にソースコードを漁っただけなので違っているかもしれません。)

DefaultMemoryLimitPathV1 = "/sys/fs/cgroup/memory/memory.limit_in_bytes"
DefaultMemoryLimitPathV2 = "/sys/fs/cgroup/memory.max"

ECS コンテナ定義の設定値が /sys/fs/cgroup/memory にどう影響するか？

メモリのハード制限 / ソフト制限それぞれを変更して、
コンテナ内の各ファイルがどのように変化するか確認してみると、
下表のようになりました。

ファイル	制限なし	ハード制限 = 1GB	ソフト制限 = 1GB
`/sys/fs/cgroup/memory/memory.limit_in_bytes`	9223372036854771712	1073741824	9223372036854771712
`/sys/fs/cgroup/memory/memory.soft_limit_in_bytes`	9223372036854771712	9223372036854771712	1073741824
`/sys/fs/cgroup/memory.max`	- (ファイルなし)	- (ファイルなし)	- (ファイルなし)

9223372036854771712 は未設定 / 制限なしを表しているらしい。

おまけ: -XX:MaxDirectMemorySize がデフォルトで 10MB 固定なのは何故か？

僕の扱っているアプリケーションは -XX:MaxDirectMemorySize = 10MB だと
OutOfMemoryError (Direct Buffer) が割と発生しやすいです。
そのためこの値のデフォルトが何故 10MB 固定なのか気になり見つけたページです。
今回の記事との関係は薄いですが、覚書でリンクを貼っておきます。

Discussion #241 Why does paketo-libjvm set direct memory to an arbitrary 10MB by default? - paketo-buildpacks

推察まとめ

概ね以下の挙動をしているのかなと推察し、納得できました。

ECS メモリのハード制限は /sys/fs/cgroup/memory/memory.limit_in_bytes に書き込まれる
Memory Calculator は /sys/fs/cgroup/memory/memory.limit_in_bytes を Total Memory として使う

Blog (Jekyll) を久々にビルドしたら classifier-reborn, jekyll-last-modified-at がエラーになったので解消した

2024-05-19T00:00:00+09:00

この Blog (Jekyll) を久々にビルドしたところ、
依存ライブラリ classifier-reborn (gsl), jekyll-last-modified-at (posix-spawn) の
インストールに失敗したので解消しました。

前提

この Blog はこんな Gemfile で依存ライブラリを管理しています。

source "https://rubygems.org"
gem "jekyll", "~> 4.3"
gem "classifier-reborn", "~> 2.3"
gem "gsl", "~> 2.1"
# ... (中略)
group :jekyll_plugins do
  gem "jekyll-last-modified-at", "~> 1.3"
  # ... (中略)
end

公開する静的コンテンツは、次のコマンドでビルドしています。

$ bundle install
$ bundle exec jekyll build

ビルド環境は次の通りです。

macOS Sonoma 14.4.1 (M1)
Ruby 3.3.1
Bundler 2.5.9

classifier-reborn (gsl)

classifier-reborn とは

classifier-reborn は、 Jekyll で関連記事 (各記事ページの下部に表示しているリンク) の
リストを作るために必要な依存ライブラリです。
Jekyll Build Command Options の lsi を有効にする場合に必要となります。
また、これ単体だとコンテンツのビルドが非常に遅く、
高速化のため gsl も組み合わせて使っていました。

ビルドエラー

これを bundle install したところ、次のエラーが出ました。

$ bundle install
# ... (中略)
Gem::Ext::BuildError: ERROR: Failed to build gem native extension.

    current directory: /Users/username/akkinoc.github.io/vendor/bundle/ruby/3.3.0/gems/gsl-2.1.0.3/ext/gsl_native
/Users/username/.rbenv/versions/3.3.1/bin/ruby extconf.rb
checking gsl version... 2.7.1
checking gsl cflags... -I/opt/homebrew/Cellar/gsl/2.7.1/include
checking gsl libs... -L/opt/homebrew/Cellar/gsl/2.7.1/lib -lgsl -lgslcblas
checking for round()... yes
checking for alf/alf.h... no
checking for qrngextra/qrngextra.h... no
checking for rngextra/rngextra.h... no
checking for tensor/tensor.h... no
checking for gsl/gsl_multimin_fsdf.h... no
checking for gsl/gsl_cqp.h... no
checking for jacobi.h... no
checking for ndlinear/gsl_multifit_ndlinear.h... no
checking for ool/ool_version.h... no
checking for gsl_eigen_francis() in -lgsl... yes
checking for gsl_eigen_francis()... yes
checking for gsl_poly_solve_quartic() in -lgsl... no
checking for graph... no
checking for tamu_anova/tamu_anova.h... no
checking for gsl_multifit_fdfsolver.J in gsl/gsl_multifit_nlin.h... no
checking for gsl_sf_mathieu_a_e() in gsl/gsl_sf_mathieu.h... yes
checking for gsl_sf_mathieu_b_e() in gsl/gsl_sf_mathieu.h... yes
checking for gsl_sf_mathieu_ce_e() in gsl/gsl_sf_mathieu.h... yes
checking for gsl_sf_mathieu_se_e() in gsl/gsl_sf_mathieu.h... yes
checking for gsl_sf_mathieu_Mc_e() in gsl/gsl_sf_mathieu.h... yes
checking for gsl_sf_mathieu_Ms_e() in gsl/gsl_sf_mathieu.h... yes
creating gsl_config.h
creating Makefile

current directory: /Users/username/akkinoc.github.io/vendor/bundle/ruby/3.3.0/gems/gsl-2.1.0.3/ext/gsl_native
make DESTDIR\= sitearchdir\=./.gem.20240519-75606-orrbex sitelibdir\=./.gem.20240519-75606-orrbex clean

current directory: /Users/username/akkinoc.github.io/vendor/bundle/ruby/3.3.0/gems/gsl-2.1.0.3/ext/gsl_native
make DESTDIR\= sitearchdir\=./.gem.20240519-75606-orrbex sitelibdir\=./.gem.20240519-75606-orrbex
compiling alf.c
compiling array.c
In file included from array.c:12:
In file included from ./include/rb_gsl_common.h:20:
/opt/homebrew/Cellar/gsl/2.7.1/include/gsl/gsl_version.h:18:9: warning: 'GSL_VERSION' macro redefined [-Wmacro-redefined]
#define GSL_VERSION "2.7.1"
        ^
:1:9: note: previous definition is here
#define GSL_VERSION 2.7.1
        ^
In file included from array.c:12:
./include/rb_gsl_common.h:29:1: error: unknown type name 'EXTERN'
EXTERN ID rb_gsl_id_beg, rb_gsl_id_end, rb_gsl_id_excl, rb_gsl_id_to_a;
^
./include/rb_gsl_common.h:29:10: error: expected ';' after top level declarator
EXTERN ID rb_gsl_id_beg, rb_gsl_id_end, rb_gsl_id_excl, rb_gsl_id_to_a;
         ^
         ;
./include/rb_gsl_common.h:352:1: error: unknown type name 'EXTERN'
EXTERN VALUE cGSL_Object;
^
./include/rb_gsl_common.h:352:13: error: expected ';' after top level declarator
EXTERN VALUE cGSL_Object;
            ^
            ;
In file included from array.c:13:
./include/rb_gsl_array.h:39:1: error: unknown type name 'EXTERN'
EXTERN VALUE cgsl_block, cgsl_block_int;
^
./include/rb_gsl_array.h:39:13: error: expected ';' after top level declarator
EXTERN VALUE cgsl_block, cgsl_block_int;
            ^
            ;
./include/rb_gsl_array.h:40:1: error: unknown type name 'EXTERN'
EXTERN VALUE cgsl_block_uchar;
^
./include/rb_gsl_array.h:40:13: error: expected ';' after top level declarator
EXTERN VALUE cgsl_block_uchar;
            ^
            ;
./include/rb_gsl_array.h:41:1: error: unknown type name 'EXTERN'
EXTERN VALUE cgsl_block_complex;
^
./include/rb_gsl_array.h:41:13: error: expected ';' after top level declarator
EXTERN VALUE cgsl_block_complex;
            ^
            ;
./include/rb_gsl_array.h:42:1: error: unknown type name 'EXTERN'
EXTERN VALUE cgsl_vector, cgsl_vector_complex;
^
./include/rb_gsl_array.h:42:13: error: expected ';' after top level declarator
EXTERN VALUE cgsl_vector, cgsl_vector_complex;
            ^
            ;
./include/rb_gsl_array.h:43:1: error: unknown type name 'EXTERN'
EXTERN VALUE cgsl_vector_col;
^
./include/rb_gsl_array.h:43:13: error: expected ';' after top level declarator
EXTERN VALUE cgsl_vector_col;
            ^
            ;
./include/rb_gsl_array.h:44:1: error: unknown type name 'EXTERN'
EXTERN VALUE cgsl_vector_col_view;
^
./include/rb_gsl_array.h:44:13: error: expected ';' after top level declarator
EXTERN VALUE cgsl_vector_col_view;
            ^
            ;
./include/rb_gsl_array.h:45:1: error: unknown type name 'EXTERN'
EXTERN VALUE cgsl_vector_complex_col;
^
./include/rb_gsl_array.h:45:13: error: expected ';' after top level declarator
EXTERN VALUE cgsl_vector_complex_col;
            ^
            ;
./include/rb_gsl_array.h:46:1: error: unknown type name 'EXTERN'
EXTERN VALUE cgsl_vector_complex_col_view;
^
fatal error: too many errors emitted, stopping now [-ferror-limit=]
1 warning and 20 errors generated.
make: *** [array.o] Error 1

make failed, exit code 2

Gem files will remain installed in /Users/username/akkinoc.github.io/vendor/bundle/ruby/3.3.0/gems/gsl-2.1.0.3 for inspection.
Results logged to /Users/username/akkinoc.github.io/vendor/bundle/ruby/3.3.0/extensions/arm64-darwin-23/3.3.0/gsl-2.1.0.3/gem_make.out

  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:125:in `run'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:51:in `block in make'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:43:in `each'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:43:in `make'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/ext_conf_builder.rb:42:in `build'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:193:in `build_extension'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:227:in `block in build_extensions'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:224:in `each'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:224:in `build_extensions'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/installer.rb:852:in `build_extensions'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/rubygems_gem_installer.rb:76:in `build_extensions'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/rubygems_gem_installer.rb:28:in `install'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/source/rubygems.rb:205:in `install'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/installer/gem_installer.rb:54:in `install'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/installer/gem_installer.rb:16:in `install_from_spec'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/installer/parallel_installer.rb:132:in `do_install'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/installer/parallel_installer.rb:123:in `block in worker_pool'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/worker.rb:62:in `apply_func'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/worker.rb:57:in `block in process_queue'
  :187:in `loop'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/worker.rb:54:in `process_queue'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/worker.rb:90:in `block (2 levels) in create_threads'

An error occurred while installing gsl (2.1.0.3), and Bundler cannot continue.

In Gemfile:
  gsl

解決方法

classifier-reborn の Dependencies 記載を読むと、
gsl は長いことメンテされておらず、 Ruby 3 にも追いついてないようです。
代わりに Numo という方が推奨されていたので、そちらに切り替えました。

Note: The gsl gem is currently incompatible with Ruby 3.
It is recommended to use Numo instead with Ruby 3.

Install GSL Gem - Classifier Reborn

手順としては、 classifier-reborn の Dependencies 記載に従って、
gsl の代わりに Numo をインストールすれば OK です。
なお macOS の場合は、 Numo のビルド時に lapack, openblas の
インストール先パスを build.numo-linalg 等で教えてやる必要があるようです。

$ bundle remove gsl
$ brew uninstall gsl

$ brew install lapack openblas
$ bundle config --local build.numo-linalg \
    --with-lapack-lib="$(brew --prefix lapack)/lib" \
    --with-openblas-dir=$(brew --prefix openblas)
$ bundle add numo-linalg numo-narray

jekyll-last-modified-at (posix-spawn)

jekyll-last-modified-at とは

jekyll-last-modified-at は、 Jekyll で記事の最終更新日時 (page.last_modified_at) を
Git コミットログから自動で設定してくれる依存ライブラリです。
内部で posix-spawn というライブラリに更に依存しているようです。

ビルドエラー

これを bundle install したところ、次のエラーが出ました。

$ bundle install
# ... (中略)
Gem::Ext::BuildError: ERROR: Failed to build gem native extension.

    current directory: /Users/username/akkinoc.github.io/vendor/bundle/ruby/3.3.0/gems/posix-spawn-0.3.15/ext
/Users/username/.rbenv/versions/3.3.1/bin/ruby extconf.rb
creating Makefile

current directory: /Users/username/akkinoc.github.io/vendor/bundle/ruby/3.3.0/gems/posix-spawn-0.3.15/ext
make DESTDIR\= sitearchdir\=./.gem.20240519-75606-7wjjb1 sitelibdir\=./.gem.20240519-75606-7wjjb1 clean

current directory: /Users/username/akkinoc.github.io/vendor/bundle/ruby/3.3.0/gems/posix-spawn-0.3.15/ext
make DESTDIR\= sitearchdir\=./.gem.20240519-75606-7wjjb1 sitelibdir\=./.gem.20240519-75606-7wjjb1
compiling posix-spawn.c
posix-spawn.c:226:27: error: incompatible function pointer types passing 'int (VALUE, VALUE, posix_spawn_file_actions_t *)' (aka 'int (unsigned long, unsigned long, void **)')
to parameter of type 'int (*)(VALUE, VALUE, VALUE)' (aka 'int (*)(unsigned long, unsigned long, unsigned long)') [-Wincompatible-function-pointer-types]
        rb_hash_foreach(options, posixspawn_file_actions_operations_iter, (VALUE)fops);
                                 ^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
/Users/username/.rbenv/versions/3.3.1/include/ruby-3.3.0/ruby/internal/intern/hash.h:83:40: note: passing argument to parameter 'func' here
void rb_hash_foreach(VALUE hash, int (*func)(VALUE key, VALUE val, VALUE arg), VALUE arg);
                                       ^
1 error generated.
make: *** [posix-spawn.o] Error 1

make failed, exit code 2

Gem files will remain installed in /Users/username/akkinoc.github.io/vendor/bundle/ruby/3.3.0/gems/posix-spawn-0.3.15 for inspection.
Results logged to /Users/username/akkinoc.github.io/vendor/bundle/ruby/3.3.0/extensions/arm64-darwin-23/3.3.0/posix-spawn-0.3.15/gem_make.out

  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:125:in `run'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:51:in `block in make'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:43:in `each'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:43:in `make'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/ext_conf_builder.rb:42:in `build'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:193:in `build_extension'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:227:in `block in build_extensions'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:224:in `each'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/ext/builder.rb:224:in `build_extensions'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/rubygems/installer.rb:852:in `build_extensions'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/rubygems_gem_installer.rb:76:in `build_extensions'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/rubygems_gem_installer.rb:28:in `install'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/source/rubygems.rb:205:in `install'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/installer/gem_installer.rb:54:in `install'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/installer/gem_installer.rb:16:in `install_from_spec'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/installer/parallel_installer.rb:132:in `do_install'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/installer/parallel_installer.rb:123:in `block in worker_pool'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/worker.rb:62:in `apply_func'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/worker.rb:57:in `block in process_queue'
  :187:in `loop'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/worker.rb:54:in `process_queue'
  /Users/username/.rbenv/versions/3.3.1/lib/ruby/3.3.0/bundler/worker.rb:90:in `block (2 levels) in create_threads'

An error occurred while installing posix-spawn (0.3.15), and Bundler cannot continue.

In Gemfile:
  jekyll-last-modified-at was resolved to 1.3.0, which depends on
    posix-spawn

解決方法

posix-spawn も長いことメンテされてないようですが、
posix-spawn Issue #92 Comment に回避方法がありました。

次のビルドオプションを加えることで回避できました。

$ bundle config --local build.posix-spawn \
    --with-cflags="-Wno-incompatible-function-pointer-types"

logback-access-spring-boot-starter - Spring Boot 3 をサポートしました

2023-05-05T00:00:00+09:00

Spring Boot 3 へのアップデートに必要だった変更をまとめました。

今回の変更は殆ど Pull Request でいただきました。感謝です。
リリース直後には初めて GitHub Sponsor までいただけました。
とても嬉しいし励みになります。ありがとうございます。

logback-access-spring-boot-starter とは

前に投稿した記事をご参照ください:
logback-access-spring-boot-starter を Kotlin で書き直した

GitHub リポジトリはこちら:

Spring Boot 3 へのアップデートに必要だった変更内容

Java 17 未満のサポート廃止

Java 17 以上が必須となったため、 Java 8 と 11 のサポートは廃止しました。

@ConstructorBinding の廃止

Immutable な @ConfigurationProperties クラスにおいて、
@ConstructorBinding の付与が不要になったので削除しました。

Auto-configuration ファイルの変更

META-INF/spring.factories にクラス名を記載しておくと
そのモジュールを使う時に自動的に @Configuration を走らせてくれる、
というライブラリ向けの機能がありました。

このファイルのパスとフォーマットが変わったので、新しい形に変更しました。

旧) META-INF/spring.factories
新) META-INF/spring/org.springframework.boot.autoconfigure.AutoConfiguration.imports

Servlet API の変更 (Java EE → Jakarta EE)

Servlet API のバージョンが v4 → v6 に更新され、 Java EE は Jakarta EE になりました。
これに伴い、 javax.* パッケージの import を jakarta.* に変更しました。

バージョンが一気に 2 つ上がってますが、
v5 は Jakarta EE 移管によるパッケージの変更のみのようです。
v6 は機能が増えてるようですが影響ありませんでした。

注意点として、 Spring Boot Starter の Jetty 11 では Servlet API 6.0 に対応していません。
(Tomcat 10, Undertow 2 では対応しています。)
そのため、 spring-boot-starter-jetty を使う場合は、
jakarta.servlet-api のバージョンを 5.0.0 に落とす必要がありました。

📝 背景:
本ライブラリは Tomcat, Jetty, Undertow をサポートしており、
どの Web サーバが使われているか判別して実装を切り替えてます。

Logback Joran の変更

Logback のバージョンが v1.2 → v1.4 に更新され、 Joran の作りが大きく変わりました。
これに伴い、新しい Joran のインターフェイスに合わせ実装を変更しました。

📝 Joran とは:
Logback の設定ファイルパース部分のフレームワークを Joran と呼ぶようです。

📝 背景:
Spring Boot 本体の Logback ロギングの内部実装では、
Joran に踏み込んで , タグを拡張していました。
それを参考に、本ライブラリでも Joran に踏み込んで同タグをサポートしています。

Logback Access の変更

Logback のバージョンアップで、 SequenceNumberGenerator という機能が増えました。
ロギングイベントにシーケンス番号を付与できるようです。
イベントインターフェイス (IAccessEvent) にこの関数が増えているため、実装を追加しました。

Deprecated 関数の置き換え

Deprecated となった関数があったので置き換えました。
本ライブラリでは次の関数が対象でした。

org.springframework.http.ResponseEntity#getStatusCodeValue()
org.springframework.util.SerializationUtils#deserialize(byte[])

Spring Boot ログの出力先とフォーマットを環境によって切り替える

2023-03-26T00:00:00+09:00

Spring Boot アプリケーションでログの出力先やフォーマットを
環境によって切り替えたいことがよくあります。

自分の場合は、

ローカル開発時は標準出力にテキスト出力
本番実行時は標準出力に JSON フォーマットで出力

とすることが多いです。

(ローカル開発時まで JSON 出力するのは読みにくいため)

環境

Java バージョン: 17
Spring Boot バージョン: 3.0 (2.x でも OK)
ビルドツール: Maven

方針

ここではローカル開発時, 本番実行時の 2 環境の切り替えを想定します
ローカル開発時以外の環境では Spring Profile に環境名を与えます (下表 A)
- 📝 環境を増やしたい場合は、この値の種類を増やします
application(-{環境名}).yml に Spring Property app.log.appender を定義します (下表 B)
- 📝 出力先/フォーマットを増やしたい場合は、この値の種類を増やします
Spring Property app.log.appender によって出力先/フォーマットを切り替えます (下表 C)
- 📝 Spring Property 経由なので、環境変数 APP_LOG_APPENDER でも柔軟に切り替え可能です
- 📝 標準出力のみ扱ってますが、実際はファイル出力やログサーバ送信等も想定できます

環境	Spring Profile (A)	Spring Property (B)	出力先 (C)	フォーマット (C)
ローカル開発時	なし	`console-text`	標準出力	テキスト
本番実行時	`prod`	`console-json`	標準出力	JSON

実装方法

依存関係の追加

JSON 出力する場合は logstash-logback-encoder を使うのが楽なので、依存関係に追加します。

  net.logstash.logback
  logstash-logback-encoder
  7.3

環境設定ファイルの作成

環境ごとの設定ファイル application(-{環境名}).yml をクラスパスルートに作成します。

# application.yml (デフォルト, ローカル開発時用)
app.log.appender: console-text

# application-prod.yml (本番実行時用)
app.log.appender: console-json

Logback 設定ファイルの作成

Logback の設定ファイル logback-spring.xml をクラスパスルートに作成します。
Spring Boot が自動的に読み込んでくれるので、ここで Logback 設定をカスタマイズできます。
Spring Property の取得には、 Spring Boot 提供の Logback 拡張タグが便利です。

  
   resource="org/springframework/boot/logging/logback/defaults.xml"/>

   name="APP_LOG_APPENDER" source="app.log.appender" defaultValue="console-text"/>

   name="console-text" class="ch.qos.logback.core.ConsoleAppender">
    
      ${CONSOLE_LOG_PATTERN}
      ${CONSOLE_LOG_CHARSET}
    
   name="console-json" class="ch.qos.logback.core.ConsoleAppender">
     class="net.logstash.logback.encoder.LogstashEncoder"/>
  
   level="INFO">
     ref="${APP_LOG_APPENDER}"/>

サンプルコード全体

上記のサンプルコード全体はこちらに置いてます。

akkinoc/try-spring-boot-log-by-env - GitHub

実行イメージ

ローカル開発時

Spring Profile の指定なしで実行すると、テキストフォーマットで出力されます。

$ mvn spring-boot:run
... (中略)
2023-03-26T14:21:28.360+09:00  INFO 77469 --- [           main] sample.App                               : Running App!

本番実行時

Spring Profile に prod を指定して実行すると、 JSON フォーマットで出力されます。

$ SPRING_PROFILES_ACTIVE=prod mvn spring-boot:run
... (中略)
{"@timestamp":"2023-03-26T14:21:48.269814+09:00","@version":"1","message":"Running App!","logger_name":"sample.App","thread_name":"main","level":"INFO","level_value":20000}

環境変数で切り替え

環境変数を指定して柔軟に切り替えることも可能です (一時的に上書き変更したい場合等)。

$ APP_LOG_APPENDER=console-json mvn spring-boot:run
... (中略)
{"@timestamp":"2023-03-26T14:22:20.356888+09:00","@version":"1","message":"Running App!","logger_name":"sample.App","thread_name":"main","level":"INFO","level_value":20000}

Tips

ログレベルの設定

application.yml, logback-spring.xml, どちらでも設定できます。

# application.yml
logging.level.your.package=debug
logging.level.root=warn

 name="your.package" level="DEBUG"/>
 level="WARN">...

片方に集約されていれば、どちらで設定しても良いと思います。
個人的には application.yml の方が、環境別に基本の値を定義できるので好きです。

どちらでも、環境変数 LOGGING_LEVEL_ROOT, LOGGING_LEVEL_YOUR_PACKAGE 等で
一時的な上書き変更も可能です。

テキストフォーマットのカスタマイズ

Spring Property logging.pattern.console が用意されてます。
指定可能なパターンは Logback Manual: PatternLayout が参考になります。

# application.yml
logging.pattern.console: "%d{yyyy-MM-dd HH:mm:ss.SSS} %-5p [%t] [%c{30}] %m - %C.%M \\(%F:%L\\)%n%ex"

$ mvn spring-boot:run
... (中略)
2023-03-26 15:23:28.421 INFO  [main] [sample.App] Running App! - sample.App.run (App.java:19)

JSON フォーマットのカスタマイズ

logstash-logback-encoder: Usage に詳細に記載されています。

JSON を整形して読みやすくしたい場合は jsonGeneratorDecorator が使えます。

 name="console-json" class="ch.qos.logback.core.ConsoleAppender">
   class="net.logstash.logback.encoder.LogstashEncoder">
     class="net.logstash.logback.decorate.PrettyPrintingJsonGeneratorDecorator"/>
  

$ APP_LOG_APPENDER=console-json mvn spring-boot:run
... (中略)
{
  "@timestamp" : "2023-03-26T16:04:04.654775+09:00",
  "@version" : "1",
  "message" : "Running App!",
  "logger_name" : "sample.App",
  "thread_name" : "main",
  "level" : "INFO",
  "level_value" : 20000
}

もし Logstash を無視したオリジナルのフォーマットにしたい場合は
LoggingEventCompositeJsonEncoder が使えます。

 name="console-json" class="ch.qos.logback.core.ConsoleAppender">
   class="net.logstash.logback.encoder.LoggingEventCompositeJsonEncoder">
    
      
        
          {
            "timestamp": "%d{yyyy-MM-dd'T'HH:mm:ss.SSSZZ}",
            "level": "%p",
            "thread": "%t",
            "logger": "%c",
            "message": "%m",
            "class": "%C",
            "method": "%M",
            "file": "%F",
            "line": "%L",
            "exception": "%ex"
          }
        
        true
      
    
     class="net.logstash.logback.decorate.PrettyPrintingJsonGeneratorDecorator"/>
  

$ APP_LOG_APPENDER=console-json mvn spring-boot:run
... (中略)
{
  "timestamp" : "2023-03-26T16:05:04.684+0900",
  "level" : "INFO",
  "thread" : "main",
  "logger" : "sample.App",
  "message" : "Running App!",
  "class" : "sample.App",
  "method" : "run",
  "file" : "App.java",
  "line" : "19"
}

参考リンク

AWS Batch ジョブを GAS (Google Apps Script) から直接投入する

2022-06-10T00:00:00+09:00

AWS Batch ジョブを GAS (Google Apps Script) から直接投入するためのメモ。

前提

今回も先日の記事に書いた方法を使う。

AWS API を GAS (Google Apps Script) から直接呼び出す

AWS Batch のジョブ定義, ジョブキュー, コンピューティング環境は既にある前提。

IAM ユーザ

GAS から AWS API を呼び出すための IAM ユーザを作成し、アクセスキーを発行する。

ポリシーはこんな感じで batch:SubmitJob だけ許可すれば OK。
アクセスキーは GAS にベタ書きしちゃうので、対象リソースをしっかり制限しとく。

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": "batch:SubmitJob",
      "Resource": [
        "arn:aws:batch:ap-northeast-1:178282380061:job-definition/{ジョブ定義名}",
        "arn:aws:batch:ap-northeast-1:178282380061:job-queue/{ジョブキュー名}"
      ]
    }
  ]
}

GAS

発行したアクセスキーで AWS.init して、次のように AWS.request すれば OK。

function DynamoDBPutItem() {
  const res = AWS.request(
    'batch',
    'ap-northeast-1',
    'SubmitJob',
    {},
    'POST',
    {
      jobName: '{ジョブ名}',
      jobDefinition: '{ジョブ定義名}',
      jobQueue: '{ジョブキュー名}',
      parameters: {
        '{パラメータ名}': '{パラメータ値}',
      },
    },
    { 'Content-Type': 'application/json' },
    '/v1/submitjob',
  )
  const code = res.getResponseCode()
  const text = res.getContentText()
  if (code < 200 || code >= 300) throw Error(`AWS.request failed: ${code} - ${text}`)
  Logger.log(`OK: ${table} - ${JSON.stringify(item)}`)
}

Google スプレッドシートのテキストから Amazon Comprehend でキーフレーズを抽出

2022-05-18T00:00:00+09:00

大量にあるテキストからお手軽に単語を抽出したい、という要件が発生しまして。

結論、 Google スプレッドシートに入力したテキストから、
Amazon Comprehend でキーフレーズを抽出する仕組みを作った。

要件

大量にあるテキストから単語を抽出したい。
非エンジニアが使うため、 CLI や API を直接は叩かない。
UI 開発やサーバサイド開発は少なくお手軽に実現したい。

mecab を試す (不採用)

自然言語処理は正直やったことなかったので、
真っ先に浮かんだのは形態素解析。
形態素解析と言えば mecab。

と言うことで試しにやってみた。
入力データは、僕の過去ツイートで試してみた。

$ cat mecab-in.txt
Server-Side Kotlin Lounge #2「JavaからKotlinへの移行を考える」に参加を申し込みました！
AWS Batch 動く場所をEC2→Fargateに切り替え試してみてるけど、起動ちょっと早くなっていい感じ。
CloudFormationテンプレートを書くたび、YAMLアンカー/エイリアス機能くださいって思ってる。

$ mecab Server	名詞,固有名詞,組織,*,*,*,*
-	名詞,サ変接続,*,*,*,*,*
Side	名詞,一般,*,*,*,*,*
Kotlin	名詞,一般,*,*,*,*,*
Lounge	名詞,一般,*,*,*,*,*
#	名詞,サ変接続,*,*,*,*,*
2	名詞,数,*,*,*,*,*
「	記号,括弧開,*,*,*,*,「,「,「
Java	名詞,固有名詞,組織,*,*,*,*
から	助詞,格助詞,一般,*,*,*,から,カラ,カラ
Kotlin	名詞,固有名詞,組織,*,*,*,*
へ	助詞,格助詞,一般,*,*,*,へ,ヘ,エ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
移行	名詞,サ変接続,*,*,*,*,移行,イコウ,イコー
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
考える	動詞,自立,*,*,一段,基本形,考える,カンガエル,カンガエル
」	記号,括弧閉,*,*,*,*,」,」,」
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
参加	名詞,サ変接続,*,*,*,*,参加,サンカ,サンカ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
申し込み	動詞,自立,*,*,五段・マ行,連用形,申し込む,モウシコミ,モーシコミ
まし	助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
！	記号,一般,*,*,*,*,！,！,！
EOS
AWS	名詞,固有名詞,組織,*,*,*,*
Batch	名詞,一般,*,*,*,*,*
動く	動詞,自立,*,*,五段・カ行イ音便,基本形,動く,ウゴク,ウゴク
場所	名詞,一般,*,*,*,*,場所,バショ,バショ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
EC	名詞,一般,*,*,*,*,*
2	名詞,数,*,*,*,*,*
→	記号,一般,*,*,*,*,→,→,→
Fargate	名詞,固有名詞,組織,*,*,*,*
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
切り替え	名詞,一般,*,*,*,*,切り替え,キリカエ,キリカエ
試し	動詞,自立,*,*,五段・サ行,連用形,試す,タメシ,タメシ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
み	動詞,非自立,*,*,一段,連用形,みる,ミ,ミ
てる	動詞,非自立,*,*,一段,基本形,てる,テル,テル
けど	助詞,接続助詞,*,*,*,*,けど,ケド,ケド
、	記号,読点,*,*,*,*,、,、,、
起動	名詞,サ変接続,*,*,*,*,起動,キドウ,キドー
ちょっと	副詞,助詞類接続,*,*,*,*,ちょっと,チョット,チョット
早く	形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,早い,ハヤク,ハヤク
なっ	動詞,自立,*,*,五段・ラ行,連用タ接続,なる,ナッ,ナッ
て	助詞,接続助詞,*,*,*,*,て,テ,テ
いい	形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
感じ	名詞,一般,*,*,*,*,感じ,カンジ,カンジ
。	記号,句点,*,*,*,*,。,。,。
EOS
CloudFormation	名詞,固有名詞,組織,*,*,*,*
テンプレート	名詞,一般,*,*,*,*,テンプレート,テンプレート,テンプレート
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
書く	動詞,自立,*,*,五段・カ行イ音便,基本形,書く,カク,カク
たび	名詞,非自立,副詞可能,*,*,*,たび,タビ,タビ
、	記号,読点,*,*,*,*,、,、,、
YAML	名詞,固有名詞,組織,*,*,*,*
アンカー	名詞,一般,*,*,*,*,アンカー,アンカー,アンカー
/	名詞,サ変接続,*,*,*,*,*
エイリアス	名詞,一般,*,*,*,*,*
機能	名詞,サ変接続,*,*,*,*,機能,キノウ,キノー
ください	動詞,非自立,*,*,五段・ラ行特殊,命令ｉ,くださる,クダサイ,クダサイ
って	助詞,格助詞,連語,*,*,*,って,ッテ,ッテ
思っ	動詞,自立,*,*,五段・ワ行促音便,連用タ接続,思う,オモッ,オモッ
てる	動詞,非自立,*,*,一段,基本形,てる,テル,テル
。	記号,句点,*,*,*,*,。,。,。
EOS

とても細かく分解してくれた。
もしこれを使うなら、非エンジニアが使う UI を用意して、
裏で mecab を叩いて、固有名詞/一般名詞など必要そうな
単語だけ抽出したらいいだろうか。

Amazon Comprehend を試す

そいえば AWS にも自然言語処理のサービスがあったな、
と思い出して Amazon Comprehend というサービスに行きつく。
マネコンに入るとリアルタイムに分析できた。便利。

キーフレーズ検出なので mecab よりは荒いけど、いい感じ。
今回の要件にはこちらの方が合ってそうだったので、こちらを採用。

GAS で Amazon Comprehend を呼ぶ

UI 開発, サーバサイド開発を省きたかったので、
テキストは Google スプレッドシートに入力してもらい、
GAS (Google Apps Script) で Amazon Comprehend を呼ぶことにした。
GAS から AWS API を直接呼び出す方法は前回の記事に書いた。

AWS API を GAS (Google Apps Script) から直接呼び出す

コードはこんな感じ (AWS.init は済んでる前提)。
ついでに DetectEntities (エンティティ検出) も書いておく。

function detectKeyPhrases(lang, text) {
  var req = {
    service: "comprehend",
    region: "ap-northeast-1",
    action: "Comprehend_20171127.DetectKeyPhrases",
    method: "POST",
    params: {},
    headers: { "Content-Type": "application/x-amz-json-1.1" },
    payload: { LanguageCode: lang, Text: text },
  }
  var res = AWS.request(req.service, req.region, req.action, req.params, req.method, req.payload, req.headers)
  res = { code: res.getResponseCode(), headers: res.getHeaders(), payload: JSON.parse(res.getContentText()) }
  if (res.code < 200 || res.code >= 300)
    throw new Error("Amazon Comprehend DetectKeyPhrases failed: " + JSON.stringify(res))
  return res.payload
}

function detectEntities(lang, text) {
  var req = {
    service: "comprehend",
    region: "ap-northeast-1",
    action: "Comprehend_20171127.DetectEntities",
    method: "POST",
    params: {},
    headers: { "Content-Type": "application/x-amz-json-1.1" },
    payload: { LanguageCode: lang, Text: text },
  }
  var res = AWS.request(req.service, req.region, req.action, req.params, req.method, req.payload, req.headers)
  res = { code: res.getResponseCode(), headers: res.getHeaders(), payload: JSON.parse(res.getContentText()) }
  if (res.code < 200 || res.code >= 300)
    throw new Error("Amazon Comprehend DetectEntities failed: " + JSON.stringify(res))
  return res.payload
}

あとは以下を実装して、いい感じに
メニューからキーフレーズ分解を実行できるようにした。

SpreadsheetApp.getUi().createMenu() で以下を実行するメニューを追加。
スプレッドシートから入力されたテキストを拾う。
上記の detectKeyPhrases に入力テキストを渡して呼ぶ。
返ってきた結果 (キーフレーズ) をスプレッドシートに反映。

所感

自然言語処理、初めて使ってみたけども (だいぶ雑にしか触ってないけど)。
なかなか面白かったー。

AWS API を GAS (Google Apps Script) から直接呼び出す

2022-05-15T00:00:00+09:00

AWS SDK は GAS (Google Apps Script) 向けには提供されていません。
AWS SDK for JavaScript も実行環境が異なるため使えません。

そんななか、割と簡単に AWS API を GAS (Google Apps Script) から
直接呼び出す方法を見つけました。

背景

僕は最近、簡単な業務効率化ツールや、
UI 開発を省略したプロトタイプ版ツールなど、
Google スプレッドシートを入力データとして、
AWS と連携するツールを開発することが多いです。

簡単なツールやプロトタイプ版ツールの開発なので、
UI だけでなくサーバサイドの開発工数も極力省きたい。
そうすると、データ入力された Google スプレッドシートの
GAS から AWS API を直接呼び出したいケースが出てきました。

しかし、 AWS SDK は GAS 向けには提供されていませんし、
AWS SDK for JavaScript も実行環境が Node.js, Web ブラウザとは
異なるため使えません。
AWS API のリクエスト発行を自前で実装するにしても、
認証周り (AWS API リクエストの署名) がとても面倒そうです。

この記事は、これを解決した内容になります。

aws-apps-scripts

こちらを使わせてもらいました。面倒な認証周りをやってくれます。
(2019 年にはあったのですね。もっと早く見つけたかった・・・。)

smithy545/aws-apps-scripts - GitHub

使い方はこんな感じ。シンプル。

GAS プロジェクト内に、上記 GitHub リポジトリの “aws.js” をコピー。
(複数プロジェクトで使うならライブラリとして登録しても良さそう。)
AWS.init(...) を呼び出して初期設定。
AWS.request(...) で AWS API リクエストを発行。

function myFunction() {
  AWS.init("MY_ACCESS_KEY", "MY_SECRET_KEY");
  var instanceXML = AWS.request('ec2', 'us-east-1', 'DescribeInstances', {"Version":"2015-10-01"});
  ...
}

AWS.request の引数

API によっては、 AWS.request(...) の引数に指定すべき値が
よく分からないことがありました。
そういう場合は、手元でデバッグフラグ (--debug) 付きで AWS CLI を叩くと
生の HTTP リクエスト/レスポンスまで見れるので、そこから推測できました。

例えば DynamoDB PutItem の場合、
DynamoDB PutItem リファレンスも参照しつつ、
以下のように AWS.request(...) の引数を特定できました。

$ aws dynamodb put-item --table-name my_table --item '{ "id": { "S": "my-item" } }' --debug
...
2022-05-15 13:56:02,141 - MainThread - botocore.endpoint - DEBUG - Making request for OperationModel(name=PutItem) with params: {'url_path': '/', 'query_string': '', 'method': 'POST', 'headers': {'X-Amz-Target': 'DynamoDB_20120810.PutItem', 'Content-Type': 'application/x-amz-json-1.0', 'User-Agent': 'aws-cli/2.5.4 Python/3.9.12 Darwin/21.4.0 source/x86_64 prompt/off command/dynamodb.put-item'}, 'body': b'{"TableName": "my_table", "Item": {"id": {"S": "my-item"}}}', 'url': 'https://dynamodb.ap-northeast-1.amazonaws.com/', 'context': {'client_region': 'ap-northeast-1', 'client_config': , 'has_streaming_input': False, 'auth_type': None}}
...

引数	引数の値	引数の値の特定方法
1. サービス	`dynamodb`	ログ中の `url` のサブドメインを参照
2. リージョン	`ap-northeast-1`	ログ中の `url` のサブドメインを参照
3. アクション	`DynamoDB_20120810.PutItem`	ログ中の `headers` の `X-Amz-Target` を参照
4. パラメータ	なし	ログ中の `query_string` を参照 (多分)
5. メソッド	`POST`	ログ中の `method` を参照
6. ペイロード	`{ TableName: ..., Item: ... }`	ログ中の `body` を参照
7. ヘッダ	`{ 'Content-Type': 'application/x-amz-json-1.0' }`	ログ中の `headers` の `Content-Type` を参照
8. パス	なし (デフォルト: `/`)	ログ中の `url_path` を参照 (多分)

特に、 “3. アクション” は API のバージョン指定 (?) も含んでいるのか、
単純な API 名 (PutItem) だけだと通らなかったので注意です。
また、 “7. ヘッダ” には上記 Content-Type を指定しないと
HTTP 404 エラーになってしまったので、こちらも注意です。

AWS.request の返却値

AWS.request(...) の返却値は URL Fetch Service の HTTPResponse 型でした。
成功/失敗は getResponseCode() (HTTP ステータスコード) で確認できました。
(HTTP 4xx, HTTP 5xx が発生しても例外はスローされません。)

ex) EC2 DescribeInstances

EC2 インスタンス ID の一覧を出力する例です。
※ページングは考慮してません。件数が多いと一部しか出力されません。

function EC2DescribeInstances() {
  const res = AWS.request(
    'ec2',
    'ap-northeast-1',
    'DescribeInstances',
    { Version: '2016-11-15' },
  )
  const code = res.getResponseCode()
  const text = res.getContentText()
  if (code < 200 || code >= 300) throw Error(`AWS.request failed: ${code} - ${text}`)
  const root = XmlService.parse(text).getRootElement()
  const ns = root.getNamespace()
  const reservations = root.getChild('reservationSet', ns).getChildren()
  reservations.forEach(reservation => {
    const instances = reservation.getChild('instancesSet', ns).getChildren()
    instances.forEach(instance => {
      const instanceId = instance.getChild('instanceId', ns)
      Logger.log(`OK: ${instanceId.getText()}`)
    })
  })
}

ex) S3 PutObject

S3 にオブジェクトをアップロードする例です。

function S3PutObject() {
  const bucket = 'my-bucket'
  const key = 'my-content.txt'
  const content = 'My Content'
  const res = AWS.request(
    's3',
    'ap-northeast-1',
    'PutObject',
    {},
    'PUT',
    content,
    { 'Content-Type': MimeType.PLAIN_TEXT },
    `/${key}`,
    { Bucket: bucket },
  )
  const code = res.getResponseCode()
  const text = res.getContentText()
  if (code < 200 || code >= 300) throw Error(`AWS.request failed: ${code} - ${text}`)
  Logger.log(`OK: ${bucket}/${key}`)
}

ex) S3 GetObject

S3 からオブジェクトをダウンロードする例です。

function S3GetObject() {
  const bucket = 'my-bucket'
  const key = 'my-content.txt'
  const res = AWS.request(
    's3',
    'ap-northeast-1',
    'GetObject',
    {},
    'GET',
    null,
    {},
    `/${key}`,
    { Bucket: bucket },
  )
  const code = res.getResponseCode()
  const text = res.getContentText()
  if (code < 200 || code >= 300) throw Error(`AWS.request failed: ${code} - ${text}`)
  Logger.log(`OK: ${bucket}/${key}\n${text}`)
}

ex) DynamoDB PutItem

DynamoDB テーブルにアイテムを登録する例です。

function DynamoDBPutItem() {
  const table = 'my_table'
  const item = { id: { S: 'my-item' } }
  const res = AWS.request(
    'dynamodb',
    'ap-northeast-1',
    'DynamoDB_20120810.PutItem',
    {},
    'POST',
    { TableName: table, Item: item },
    { 'Content-Type': 'application/x-amz-json-1.0' },
  )
  const code = res.getResponseCode()
  const text = res.getContentText()
  if (code < 200 || code >= 300) throw Error(`AWS.request failed: ${code} - ${text}`)
  Logger.log(`OK: ${table} - ${JSON.stringify(item)}`)
}

ex) RedshiftData.ExecuteStatement

僕は試してないですが、こちらの記事が参考になりそうです。
(今回の AWS.request を見つけたキッカケになった記事です！)

Roche が Google スプレッドシートと Amazon Redshift Data API でデータへのアクセスを民主化した方法 - Amazon Web Services ブログ

var resultJson = AWS.request(
  getTypeAWS_(),
  getLocationAWS_(),
  'RedshiftData.ExecuteStatement',
  {"Version": getVersionAWS_()},
  method='POST',
  payload={
    "ClusterIdentifier": getClusterIdentifierReshift_(),
    "Database": getDataBaseRedshift_(),
    "DbUser": getDbUserRedshift_(),
    "Sql": sql
  },
  headers={
    "X-Amz-Target": "RedshiftData.ExecuteStatement",
    "Content-Type": "application/x-amz-json-1.1"
  }
);

他の手段

下記の手段もあったので参考にリンクしておきます。
ただどれも制限があるので、用途によって使い分けたいところです。

S3-for-Google-Apps-Script を使う方法

S3 にしか対応してないです。
インターフェイスがシンプルなので、 S3 だけ使う場合はこちらのが便利です。

HtmlService 経由で AWS SDK for JavaScript を使う方法

Google Apps Script から AWS SDK for JavaScript を使って、スプレッドシートのデータを S3 にアップロードしてみた - DevelopersIO

AWS SDK for JavaScript を使えるのは便利そうです。
ただ、 HtmlService でサブウィンドウを表示/経由する必要があり、
全体的には少し煩雑になりそうだったため、僕は試していません。

AWS - CloudFront アクセスログを Athena + Partition Projection で解析

2021-11-29T00:00:00+09:00

CloudFront のアクセスログを Athena で集計できる環境を作ったので、やり方を残しておきます。

アクセスログが溜まってもスキャンするデータ量を抑えるよう、パーティション分割もしました。
パーティション分割には、昨年追加された機能 “Partition Projection” を使ってみました。

環境を再現できるように、 CloudFormation のテンプレートも公開しています。

要件と経緯

他社から大量のイベントデータを HTTP GET で受け取って、それを集計したい！

という要件が出てきたのが発端でした。

本当なら Kinesis Data Streams などリアルタイム処理も試してみたかったのですが、
とても納期が短かったので、経験のあった CloudFront と Athena で簡単に実現しました。

仕組みとデータフローは、こんな流れです。

他社システムから CloudFront へ、イベントデータが HTTP GET で届く
CloudFront から S3 へ、アクセスログをイベントデータとして溜め込む
S3 から Athena で集計して、 BI ツールなど別の場所へアウトプットする

CloudFront 接続元の正当性は、固定 IP アドレスで確認します。
今回はテスト用のアクセスも確認できるよう Athena 集計時に除外しましたが、
WAF 等で第三者はアクセス不可にするのもアリだと思います。

この記事ではイベントデータの受信と集計に応用しましたが、
シンプルに Web アクセスログの集計にも使える内容です。

Athena Partition Projection

アクセスログが溜まるとスキャンするデータ量の増大によって
集計時間や料金も増えてしまうので、日時でパーティション分割しました。

これまでだと ALTER TABLE ADD PARTITION や MSCK REPAIR TABLE で
事前にパーティションを追加する必要がありましたが、
“Partition Projection” という機能を使うと不要になりました。

ただ、 CloudFront が S3 に出力するパスそのままだと Partition Projection を適用できないため、
S3 ObjectCreated イベントをトリガーに Lambda でパスを移動するようにしました。
移動先パスの dt=YYYY-MM-DD-HH の部分がパーティションキーになります。

移動元: /.YYYY-MM-DD-HH..gz
移動先: /dt=YYYY-MM-DD-HH/.YYYY-MM-DD-HH..gz

Lambda のコードは、 AWS 公式のサンプルを拝借し、移動先パスだけ調整しました。
year/month/day/hour 列に分ける形で良ければ、そのままでも良いと思います。
僕は列 1 つの方がクエリで範囲指定しやすかったので、文字列型の dt 列だけにしました。

aws-samples/amazon-cloudfront-access-logs-queries/functions/moveAccessLogs.js

- const targetKey = `${targetKeyPrefix}year=${year}/month=${month}/day=${day}/hour=${hour}/${filename}`;
+ const targetKey = `${targetKeyPrefix}dt=${year}-${month}-${day}-${hour}/${filename}`;

あとは、パーティションのキーとパラメータを与えてテーブル作成すれば、
Partition Projection を適用できました。

CREATE EXTERNAL TABLE IF NOT EXISTS cloudfront_accesslogs (
  `date` DATE,
  time STRING,
  x_edge_location STRING,
  sc_bytes BIGINT,
  c_ip STRING,
  cs_method STRING,
  cs_host STRING,
  cs_uri_stem STRING,
  sc_status INT,
  cs_referer STRING,
  cs_user_agent STRING,
  cs_uri_query STRING,
  cs_cookie STRING,
  x_edge_result_type STRING,
  x_edge_request_id STRING,
  x_host_header STRING,
  cs_protocol STRING,
  cs_bytes BIGINT,
  time_taken FLOAT,
  x_forwarded_for STRING,
  ssl_protocol STRING,
  ssl_cipher STRING,
  x_edge_response_result_type STRING,
  cs_protocol_version STRING,
  fle_status STRING,
  fle_encrypted_fields STRING,
  c_port INT,
  time_to_first_byte FLOAT,
  x_edge_detailed_result_type STRING,
  sc_content_type STRING,
  sc_content_len BIGINT,
  sc_range_start BIGINT,
  sc_range_end BIGINT
)
PARTITIONED BY (
  `dt` string                                     -- 日時パーティションキー (Lambda で移動後のパスに含まれる値)
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LOCATION 's3:////'  -- Lambda で移動後のパス
TBLPROPERTIES (
  'skip.header.line.count' = '2',
  'projection.enabled' = 'true',                  -- ここで Partition Projection を有効化
  'projection.dt.type' = 'date',                  -- 以下は型, フォーマット, 範囲等の設定
  'projection.dt.format' = 'yyyy-MM-dd-HH',       --
  'projection.dt.range' = '2021-10-31-15,NOW',    --
  'projection.dt.interval' = '1',                 --
  'projection.dt.interval.unit' = 'hours'         --
)

Athena 集計クエリの例

例えば、日付 (JST), 接続元 IP アドレス, メソッド, パス, クエリ, ステータスごとに、
直近 3 か月間のリクエスト数を集計するなら、こんな感じでいけました。
パスやクエリは URL エンコードされてるので、雑にデコードしてます。

SELECT
  DATE(
    FROM_ISO8601_TIMESTAMP(
      CONCAT(TO_ISO8601(date), 'T', time, 'Z')
    ) AT TIME ZONE 'Asia/Tokyo'
  ) date,
  c_ip client,
  cs_method method,
  URL_DECODE(URL_DECODE(cs_uri_stem)) path,
  URL_DECODE(URL_DECODE(cs_uri_query)) query,
  sc_status status,
  COUNT(*) events
FROM
  cloudfront_accesslogs
WHERE
  dt >= FORMAT_DATETIME(CURRENT_TIMESTAMP AT TIME ZONE 'UTC' - INTERVAL '3' MONTH, 'yyyy-MM-dd-HH')
GROUP BY
  1, 2, 3, 4, 5, 6
ORDER BY
  1, 2, 3, 4, 5, 6

CloudFormation テンプレート

上記環境を構築できる CloudFormation テンプレートも作成しました。
GitHub に置いてます。

akkinoc/try-aws-cloudfront-access-logs-with-athena-partition-projection - GitHub

こちらのコマンドで “store.yml” を構築すると、

$ aws cloudformation deploy \
  --template-file store.yml \
  --capabilities CAPABILITY_NAMED_IAM \
  --stack-name cflogs-store \        # stack-name と、
  --parameter-overrides Name=cflogs  # Name パラメータを切り替えれば、複数構築できます

ざっくり次のリソースが出来上がります。

S3 バケット: cflogs-store
- ログを溜め込むバケット
Lambda 関数: cflogs-store-events
- s3://cflogs-store/new-events/ にログ配置されたら起動
- s3://cflogs-store/events/dt=YYYY-MM-DD-HH/ にログを移動
Glue テーブル: cflogs.events
- s3://cflogs-store/events/dt=YYYY-MM-DD-HH/ を Partition Projection で反映

あとは CloudFront 側で s3://cflogs-store/new-events/ に
アクセスログを出力するよう設定すれば完成です。

logback-access-spring-boot-starter を Kotlin で書き直した

2021-10-30T00:00:00+09:00

先日の記事に続き、ずっと放置してしまっていた
logback-access-spring-boot-starter もアップデートしました (v3.0.0)。
今回も Kotlin で全て書き直しました。

先日の記事:

logback-access-spring-boot-starter とは

Java フレームワーク Spring Boot の拡張ライブラリです。
Logback-access という Web アクセスのロギングライブラリがあるのですが、
このライブラリを Spring Boot に自動で組み込み、使いやすくします。
Logback-access の設定は、クラスパス上に “logback-access.xml” を配置すれば自動認識します。

akkinoc/logback-access-spring-boot-starter - GitHub

Kotlin で書き直しましたが、 Java からも使えます。

使い方

依存関係を追加するだけで、

  dev.akkinoc.spring.boot
  logback-access-spring-boot-starter
  3.0.0

Spring Boot Web アプリケーションへアクセスした時に、
こんなアクセスログ (Common Log Format) が標準出力に流れます。

0:0:0:0:0:0:1 - - [24/Oct/2021:15:32:03 +0900] "GET / HTTP/1.1" 200 319
0:0:0:0:0:0:1 - - [24/Oct/2021:15:32:03 +0900] "GET /favicon.ico HTTP/1.1" 404 111
0:0:0:0:0:0:1 - - [24/Oct/2021:15:32:04 +0900] "GET / HTTP/1.1" 304 0

出力先や出力フォーマットをカスタマイズしたい場合は、
クラスパス直下に “logback-access.xml” を配置/設定すれば OK です。

  
   name="console" class="ch.qos.logback.core.ConsoleAppender">
    
      common
    
   name="file" class="ch.qos.logback.core.FileAppender">
    access.log
    
      combined
    
   ref="console"/>
   ref="file"/>

設定ファイルの書き方の詳細は Logback-access 公式ドキュメントを参照ください:

Logback-access configuration

また、通常のロギングの Logback 設定 (“logback-spring.xml”) と同様に、
, タグも使えるように拡張してあります。
実行環境によって出力先や出力フォーマットを変えたい場合に便利だと思います :)

 name="staging">
  

 name="dev | staging">
  

 name="!production">
  
Spring Boot Logback Extension "Profile-specific Configuration"

 scope="context" name="fluentHost" source="myapp.fluentd.host" defaultValue="localhost"/>
 name="FLUENT" class="ch.qos.logback.more.appenders.DataFluentAppender">
  ${fluentHost}
  ...

コンセプトと頑張ってるところ

このライブラリには自分の中でいくつかコンセプトがあって、
そのために頑張って開発してる部分もあるので、ここで書き出しておきます。

通常のロギングの Logback 設定 (“logback-spring.xml”) と同じ使い勝手

クラスパス上の設定ファイル (“logback-access(-test)(-spring).xml”) を探して自動検知してます。
また、前記した通り , タグをサポートしています。

Spring Boot がサポートしている Web サーバをサポート

現状だと Tomcat, Jetty, Undertow をサポートしています。
生の Logback-access だと Tomcat, Jetty しかサポートされていませんが、
Spring Boot がサポートしている Web サーバなら、できるだけ多くサポートしたいと思ってます。

これをやるには、 Tomcat, Jetty, Undertow 等、
各 Web サーバに備わっているロギング機能がどう実装されているのか参考にするため、
それぞれの内部実装まで個別に理解する必要があるのが大変なところです。

WebFlux (リアクティブ) サポート

Spring Boot で Web アプリケーション開発する場合、
Web MVC (Servlet Stack) の他に WebFlux (Reactive Stack) が選べます。
生の Logback-access だとサーブレットベースしかサポートされていませんが、
できるだけ多くの WebFlux での実装をサポートしたいと思ってます。

現状だと Tomcat, Jetty, Undertow ベースの WebFlux をサポートしています。
Tomcat, Jetty は Spring Boot が WebFlux な実装にラップしてるだけで、
内部的にはサーブレットベースなので楽に対応できました。
Undertow は内部的にはサーブレットベースではなく独自仕様で動いているため、
Logback-access を結構改造する必要があり大変でした (^^;

ネイティブのロギング実装 (各 Web サーバに備わっている実装) に近い実装

次の理由から、各 Web サーバのネイティブに近い部分まで潜り込んでロギングしています。

生の Logback-access の実装と合わせるため
Spring Boot 標準のプロパティ (ex: “server.tomcat.accesslog.*”) で動く実装と合わせるため
リクエスト開始〜レスポンス終了の末端に一番近い部分で処理時間を計測するため

例えば Tomcat なら専用の Valve, Jetty なら専用の RequestLog を実装しています。
そのため、ここでも Web サーバごとの内部まで個別に理解して実装する必要があるので大変です。

色々な Web サーバや WebFlux に対応するなら、
サーブレットフィルタや WebFlux WebFilter でリクエスト/レスポンスを補足＋ロギングして、
Web サーバの違いを一気に吸収できる形で実装した方が良かったかな？
とは今でも考えたりしてます。
(上記した理由を諦めることにはなりますが…)

全ての Web サーバでテスト

次の理由から、全ての Web サーバに対して、 Web MVC 用, WebFlux 用の
全パターンを網羅してテストするようにしています。

前記した通り Web サーバごとの実装を書いてる部分があるため
Web サーバに依存しない共通のインターフェイスを通して処理した場合でも、
Web サーバによって微妙に挙動が異なる場合があるため

Spring Boot はクラスパスに存在するクラスによって自動で Web サーバを選択/起動するため、
これを上手く切り替えてテストすることに苦労しました。

今はテスト開始時に Spring コンテキストのクラスローダをゴニョゴニョして、
テスト対象以外の Web サーバのクラスを見つけられないようにして切り替えています。
(例えば Tomcat でテストするなら、 Jetty, Undertow, Netty のクラスを隠してます。)

フォワードヘッダ (“X-Forwarded-*”) をサポート

ロードバランサを使っている場合に、全てのアクセスログの接続元ホストが
ロードバランサの IP アドレスで記録されてしまう、ということがよくあると思います。
生の Logback-access on Tomcat でも、これは発生していました。

Spring Boot にはフォワードヘッダをサポートするプロパティ
(“server.forward-headers-strategy”) があるので、これと連動して、
リモートホスト等の一部の出力項目を書き換える、といったことをしてます。

Tee Filter をサポート

Logback-access には、デバッグ用に TeeFilter という
リクエスト/レスポンスのコンテンツ部分までロギングする機能があります。

現状まだサーブレットベースで使った場合しか動きませんが、
これを簡単に組み込めるように、
プロパティ (“logback.access.tee-filter.*”) を用意しています。

追加の Logback Appender はサポートしない

このライブラリは Spring Boot x Logback-access を繋ぐものなので、
出力先や出力フォーマットをカスタマイズするような、
追加の Logback Appender はサポートしないようにしています。

過去に JSON で出力したい, SYSLOG に出力したい, という要望をいただきました。
こういった要件は、他のライブラリも組み合わせるか、
独自で Logback Appender を実装いただけたら、と思っています。
JSON 出力なら logstash-logback-encoder の “LogstashAccessEncoder” が便利そうです。

今回アップデートしたこと

Kotlin で書き直した
Maven Group ID と Java パッケージを変更
Java 11, 17 のサポートを追加
最新の Spring Boot に対応
Undertow x WebFlux のサポートを追加
Configuration Properties の名前/構成を一部見直し
@Bean Lite Mode (@Configuration(proxyBeanMethods = false)) を使用
テストに Kotest を導入
CI を CircleCI から GitHub Actions へ移行
依存関係の更新

今後

次は Reactor Netty もサポートしたいところです。
(WebFlux の標準選択ですし、 Issue #53 で要望もいただいてますし。)

orika-spring-boot-starter を Kotlin で書き直した

2021-08-29T00:00:00+09:00

こちらの先月の記事に続き、
放置してしまっていた orika-spring-boot-starter もアップデートしました。

yaml-resource-bundle を Kotlin で書き直した

今回も Kotlin で全て書き直しました。

orika-spring-boot-starter とは

Java フレームワーク Spring Boot の拡張ライブラリです。
Orika (Java Bean マッピングライブラリ) を自動で DI コンテナに組み込み、使いやすくします。
Spring Boot アプリケーションプロパティや、ユーザ実装の設定クラスで、動作を設定できます。

akkinoc/orika-spring-boot-starter - GitHub

Kotlin で書き直しましたが、 Java からも使えます。

使い方

依存関係を追加して、

  dev.akkinoc.spring.boot
  orika-spring-boot-starter
  2.0.0

Orika の MapperFacade を注入すれば、

import ma.glasnost.orika.MapperFacade;

@Autowired
private MapperFacade orikaMapperFacade;

MapperFacade でマッピング処理を呼び出せます。

PersonSource src = new PersonSource("John", "Smith", 23);
System.out.println(src);   // => "PersonSource(firstName=John, lastName=Smith, age=23)"
PersonDestination dest = orikaMapperFacade.map(src, PersonDestination.class);
System.out.println(dest);  // => "PersonDestination(givenName=John, sirName=Smith, age=23)"

細かなマッピングの設定は、 OrikaMapperFactoryConfigurer を継承して
@Component で Spring コンテナに登録すれば OK です。

import dev.akkinoc.spring.boot.orika.OrikaMapperFactoryConfigurer;
import ma.glasnost.orika.MapperFactory;

@Component
public class PersonMapping implements OrikaMapperFactoryConfigurer {
  @Override
  public void configure(MapperFactory orikaMapperFactory) {
    orikaMapperFactory.classMap(PersonSource.class, PersonDestination.class)
      .field("firstName", "givenName")
      .field("lastName", "sirName")
      .byDefault()
      .register();
  }
}

今回アップデートしたこと

Kotlin で書き直した
Maven Group ID と Java パッケージを変更
@Bean Lite Mode (@Configuration(proxyBeanMethods = false)) を使ってみた
Kotlin らしくテストに Kotest を導入
CI を CircleCI から GitHub Actions へ移行
他, 依存関係の更新とバグ修正

akkinoc.dev

Java Buildpack Memory Calculator を Amazon ECS + AWS Fargate で動かす

前提

Java Buildpack Memory Calculator とは

起きていたこと

結論 / 解決方法

調べたこと

Total Memory は OS が認識しているメモリサイズと一致するのか？

同事象の Issue や記事等はないのか？

どの値が Total Memory として採用されるのか？

ECS コンテナ定義の設定値が /sys/fs/cgroup/memory にどう影響するか？

おまけ: -XX:MaxDirectMemorySize がデフォルトで 10MB 固定なのは何故か？

推察 まとめ

Blog (Jekyll) を久々にビルドしたら classifier-reborn, jekyll-last-modified-at がエラーになったので解消した

前提

classifier-reborn (gsl)

classifier-reborn とは

ビルドエラー

解決方法

jekyll-last-modified-at (posix-spawn)

jekyll-last-modified-at とは

ビルドエラー

解決方法

logback-access-spring-boot-starter - Spring Boot 3 をサポートしました

logback-access-spring-boot-starter とは

Spring Boot 3 へのアップデートに必要だった変更内容

Java 17 未満のサポート廃止

@ConstructorBinding の廃止

Auto-configuration ファイルの変更

Servlet API の変更 (Java EE → Jakarta EE)

Logback Joran の変更

Logback Access の変更

Deprecated 関数の置き換え

関連リンク

Release

Pull Requests

参考

Spring Boot ログの出力先とフォーマットを環境によって切り替える

環境

方針

実装方法

依存関係の追加

環境設定ファイルの作成

Logback 設定ファイルの作成

サンプルコード全体

実行イメージ

ローカル開発時

本番実行時

環境変数で切り替え

Tips

ログレベルの設定

テキストフォーマットのカスタマイズ

JSON フォーマットのカスタマイズ

参考リンク

AWS Batch ジョブを GAS (Google Apps Script) から直接投入する

前提

IAM ユーザ

GAS

Google スプレッドシートのテキストから Amazon Comprehend でキーフレーズを抽出

要件

mecab を試す (不採用)

Amazon Comprehend を試す

GAS で Amazon Comprehend を呼ぶ

所感

AWS API を GAS (Google Apps Script) から直接呼び出す

背景

aws-apps-scripts

AWS.request の引数

AWS.request の返却値

ex) EC2 DescribeInstances

ex) S3 PutObject

ex) S3 GetObject

ex) DynamoDB PutItem

ex) RedshiftData.ExecuteStatement

他の手段

S3-for-Google-Apps-Script を使う方法

HtmlService 経由で AWS SDK for JavaScript を使う方法

AWS - CloudFront アクセスログを Athena + Partition Projection で解析

要件と経緯

Athena Partition Projection

推察まとめ