Python · 朴素贝叶斯(一)· 框架

所谓的框架、自然是指三种朴素贝叶斯模型(离散、连续、混合)共性的抽象了。由于贝叶斯决策论就摆在那里、不难知道如下功能是通用的:

  • 计算类别的先验概率

  • 训练出一个能输出后验概率的决策函数

  • 利用该决策函数进行预测和评估

虽说朴素贝叶斯大体上来说只是简单的计数、但是想以比较高的效率做好这件事却比想象中的要麻烦不少(说实话麻烦到我有些不想讲的程度了)

总之先来看看这个框架的初始化步骤吧(前方……高能?!)

class NaiveBayes(ClassifierBase, metaclass=ClassifierMeta):

   """

       初始化结构

       self._x, self._y:记录训练集的变量

       self._data:核心数组,存储实际使用的条件概率的相关信息

       self._func:模型核心——决策函数,能够根据输入的x、y输出对应的后验概率

       self._n_possibilities:记录各个维度特征取值个数的数组

       self._labelled_x:记录按类别分开后的输入数据的数组

       self._label_zip:记录类别相关信息的数组,视具体算法、定义会有所不同

       self._cat_counter:核心数组,记录第i类数据的个数(cat是category的缩写)

       self._con_counter:核心数组,用于记录数据条件概率的原始极大似然估计

       self.label_dic:核心字典,用于记录数值化类别时的转换关系

       self._feat_dics:核心字典,用于记录数值化各维度特征(feat)时的转换关系

   """ 

    def __init__(self):

        self._x = self._y = None

        self._data = self._func = None

        self._n_possibilities = None

        self._labelled_x = self._label_zip = None

        self._cat_counter = self._con_counter = None

        self.label_dic = self._feat_dics = None

其中

(con是conditional的缩写)

(注释比代码还多是想闹哪样???(╯‵□′)╯︵┻━┻)

总之和我一样懵逼了的观众老爷们可以先不太在意这一坨是什么玩意儿,毕竟这些东西是抽象程度比较高的属性……等结合具体算法时、这些属性的意义可能就会明确得多

下面进入正题……首先来看怎么计算先验概率(直接利用上面的 self._cat_counter属性即可)

def get_prior_probability(self, lb=1):

    return [(_c_num + lb) / (len(self._y) + lb * len(self._cat_counter))

            for _c_num in self._cat_counter]

 

其中参数 lb 即为平滑项,默认为 1 意味着默认使用拉普拉斯平滑 

然后看看训练步骤能如何进行抽象

def fit(self, x=None, y=None, sample_weight=None, lb=1):

    if x is not None and y is not None: 

        self.feed_data(x, y, sample_weight)

    self._func = self._fit(lb)

 

(岂可修不就只是调用了一下 feed_data 方法而已嘛还说成抽象什么的行不行啊!)

其中用到的 feed_data 方法是留给各个子类定义的、进行数据预处理的方法;然后 self._fit 可说是核心训练函数、它会返回我们的决策函数 self._func

最后看看怎样利用 self._func 来预测未知数据

def predict(self, x, get_raw_result=False):

    # 调用相应方法进行数据预处理(这在离散型朴素贝叶斯中尤为重要)
    x = self._transfer_x(x)

    # 只有将算法进行向量化之后才能做以下的步骤
    m_arg, m_probability = np.zeros(len(x), dtype=np.int8), np.zeros(len(x))

    # len(self._cat_counter) 其实就是类别个数
    for i in range(len(self._cat_counter)):

        # 注意这里的 x 其实是矩阵、p 是对应的“后验概率矩阵”:p = p(y=i|x)

        # 这意味着决策函数 self._func 需要支持矩阵运算
        p = self._func(x, i)

        # 利用 Numpy 进行向量化操作
        _mask = p > m_probability
        m_arg[_mask], m_probability[_mask] = i, p[_mask]

    # 利用转换字典 self.label_dic 输出决策

    # 参数 get_raw_result 控制该函数是输出预测的类别还是输出相应的后验概率
    if not get_raw_result:
        return np.array([self.label_dic[arg] for arg in m_arg])
    return m_probability

 

其中 self.label_dic 大概是这个德性的:比如训练集的类别空间为 {red, green, blue} 然后第一个样本的类别是 red 且第二个样本的类别是 blue、那么就有

self.label_dic = np.array(["red", "blue", "green"])

 

以上就是朴素贝叶斯模型框架的搭建。

免责声明:信息仅供参考,不构成投资及交易建议。投资者据此操作,风险自担。
如果觉得文章对你有用,请随意赞赏收藏
相关推荐
相关下载
登录后评论
Copyright © 2019 宽客在线