RLHF(人間のフィードバックによる強化学習)とは?
あーるえるえいちえふ
人間の評価をAI学習に 活かす手法だよ。
「AIの答えを 人間が採点して 良かった答えを 学習させることで AIを 賢くする方法」だよ。
つかいかた・れいぶん
RLHFで AIは 人間が 喜ぶ答え方を 学んでいくよ。
このことばを シェア
さいごの こうしん: