LLMの訓練過程で行われる損失関数の最小化が、実質的にこのソロモノフ事前分布を近似していることが数学的に証明された
また、次トークン予測が、ソロモノフ帰納の計算可能な近似になっていることも示された

ソロモノフ事前分布

コルモゴロフ複雑性が低いデータほど高い確率を割り当てる確率分布
「シンプルな説明ほど確からしい」というオッカムの剃刀のアイディアを形式化したもの

ソロモノフ帰納

最短の予測器が任意の計算可能な予測器より良い性能であることを帰納的に保証している

コルモゴロフ複雑性

有限長のプログラムの複雑さを表す指標
ある出力に対する最小のプログラム長で定義される

参照