ほんぶんへ すすむ

RLHF(人間のフィードバックによる強化学習)とは?

あーるえるえいちえふ

人間の評価をAI学習に 活かす手法だよ。

「AIの答えを 人間が採点して 良かった答えを 学習させることで AIを 賢くする方法」だよ。

つかいかた・れいぶん

RLHFで AIは 人間が 喜ぶ答え方を 学んでいくよ。

このことばを シェア

𝕏 でポスト LINE

さいごの こうしん:

こんな ことば も