heap_mark() チューニング

コメントでアドバイス頂いた中で、一番効果がありそうな 4byte align を試してみました。
当社比で 3倍 程速くなりました。素晴らしい。
続いて一時変数を使うなど小手先の手動最適化で 更に1.2倍くらい高速化。