純理性地對強化概率的分析
純理性地對強化概率的分析

  用1-3的寶石墊,如果失敗按照貝葉斯概率論,下一次成功的先驗概率為80%,修正後的7-10成功後驗概率就是63%

  若用4-6的寶石墊,成功的概率修正為39%

  若考慮概率石頭的概率加成為單獨計算,若添加5%×3的概率石,1-3寶石墊的話,成功率為78%。

  以上考慮基於貝葉斯概率論

  若是基於經典概率論,每次的成功率不會隨上次的結果變化,也就是7-10永遠是30%。

  以上考慮還基於,每次強化時,系統的強化概率隨機數的隨機種子不變。

  當隨機種子不變時,強化概率分析可按貝葉斯概率論,若隨機種子變動,那就只能按傳統概率論了。

  那個。

  關於計算及隨機數的計算方法可以查看編程算法之類的書

  關於貝葉斯概率論,可以查大學數學的書(貌似數學系有開這個,其他系貌似都是經典概率論)

  對於4-6或7-10等。的強化所需強化寶石的問題,進行如下簡化

  已知N個盒子,盒子中有紅黑兩種球,取到紅球概率為K,對盒子編號取球,若取到紅球則繼續取下一盒子,若取到黑球,則退回所有球,重新取球。問取得N個紅球的期望。

  解為:

  期望X=N+(1-K^N)/{K^N*(1-K)^2}-N/(1-K)

  計算4-6時N=3,K=0.6,結果為X=18。

  也就是4-6連續砸的話,一般為18個。

  以上分析基於 經典概率論

  若要詳細求解過程可以留言

最新評論