PPOとは?
ぴーぴーおー
安定してAIを上達させる強化学習の方法だよ。
『PPO』はAIが急に変な行動を覚えないように少しずつ着実に上手くなれる安全な強化学習の方法でChatGPTの学習にも使われているよ。
つかいかた・れいぶん
ゲームの下手な操作を一気に変えず少しずつ改善して安定して上手くなるよ。
このことばを シェア
さいごの こうしん: