用1-3的寶石墊,如果失敗按照貝葉斯概率論,下一次成功的先驗概率為80%,修正後的7-10成功後驗概率就是63%
若用4-6的寶石墊,成功的概率修正為39%
若考慮概率石頭的概率加成為單獨計算,若添加5%×3的概率石,1-3寶石墊的話,成功率為78%。
以上考慮基於貝葉斯概率論
若是基於經典概率論,每次的成功率不會隨上次的結果變化,也就是7-10永遠是30%。
以上考慮還基於,每次強化時,系統的強化概率隨機數的隨機種子不變。
當隨機種子不變時,強化概率分析可按貝葉斯概率論,若隨機種子變動,那就只能按傳統概率論了。
那個。
關於計算及隨機數的計算方法可以查看編程算法之類的書
關於貝葉斯概率論,可以查大學數學的書(貌似數學系有開這個,其他系貌似都是經典概率論)
對於4-6或7-10等。的強化所需強化寶石的問題,進行如下簡化
已知N個盒子,盒子中有紅黑兩種球,取到紅球概率為K,對盒子編號取球,若取到紅球則繼續取下一盒子,若取到黑球,則退回所有球,重新取球。問取得N個紅球的期望。
解為:
期望X=N+(1-K^N)/{K^N*(1-K)^2}-N/(1-K)
計算4-6時N=3,K=0.6,結果為X=18。
也就是4-6連續砸的話,一般為18個。
以上分析基於 經典概率論
若要詳細求解過程可以留言
支持0票
反對0票
評論