基于二叉樹結構采樣預估的召回模型框架

打開文本圖片集
摘要:在廣告或者推薦系統(tǒng)的召回階段,通常會包含百萬到億級別的候選集,采樣和預估就成為很重要的問題;傳統(tǒng)的召回模型會做隨機負采樣,這種方法采樣的數(shù)據(jù)分布和整體樣本分布可能存在不一致,影響模型訓練效果,在預估服務時線上infer性能也是嚴峻的考驗;針對這兩個問題,我們提出了基于樹結構的采樣預估服務,把全量候選集通過層次聚類構建到一顆二叉樹中,所有物料掛在的樹的葉子結點,通過二叉樹采樣可能無偏的來到所有物料,并且線上infer時間復雜度從O(n)降低到O(log(n)),整體提升了模型訓練效果和預估時間開銷。(剩余4125字)