強化学習からの人間フィードバックとは?
きょうかがくしゅうからのにんげんふぃーどばっく
人間の評価をもとにAIを改善する強化学習の手法だよ。
『強化学習からの人間フィードバック』はAIの答えを人間が採点してその点数をもとに強化学習でAIを改善する方法でChatGPTのような便利なAIを作るのに使われているよ。
つかいかた・れいぶん
人間の先生がAIの回答に点数を付けてAIがどんどん上手な答え方を覚えていくよ。
このことばを シェア
さいごの こうしん: