from math import log
import operator
import numpy as np

#计算信息熵
def calEnt(x,ylabel):
    '''
    parameters:
        x:特征值
        ylabel:标签值
    returns:
        Ent(float):信息熵
    '''
    numEntries = len(x)  #特征值的个数
    labelCounts = {}    #存放各类标签值数量的字典
    #填充字典
    for featVec in ylabel:
        currentlabel = featVec #记录当前标签
        if currentlabel not in labelCounts.keys():  #如果没有出现在字典中则添加
            labelCounts[currentlabel] = 0
        labelCounts[currentlabel] += 1  #该标签量对应加一
    Ent = 0.0  #信息熵
    for key in labelCounts:
        p = float(labelCounts[key])/numEntries  #计算每种类别对应的概率
        Ent = Ent - p*log(p,2)  #循环求得信息熵
    return Ent

2.2获得数据子集splitdataset

#获得数据子集，也就是去掉某一特征值后的子集
def splitdataset(x,ylabel,axis,value):
    '''
    parameters:
        x(ndarray):特征值
        ylabel(ndarray):标签值
        axis(int):对应的列
        value(int):某个具体的值
    returns:
        subdata(ndarray):截取后的特征值
        subylabel(mdarray):截取后的标签值
    '''
    subylabel = ylabel[x[:,axis]==value] #得到截取后的标签值，x[:,axis]==value表示第得到axis列特征值中等于value的行索引
    x = x[x[:,axis]==value,:]  #得到截取后的特征值
    data1 = x[:,:axis] #选择前axis-1列
    data2 = x[:,axis:] #选择axis列后面所有列
    subdata = np.hstack([data1,data2])  #相当去去掉axis那一列
    return subdata,sublabel

2.3获得最优特征索引

def ID3_chooseBestFeatureToSplit(x,yalbel):
    '''
    parameters:
        x(ndarry):特征值
        ylabel(ndarry):标签值
    returns:
        bestFeature(int):最优特征索引
    '''
    numFeatures = len(x[0]) #获得特征值的特征列数
    baseEnt = calEnt(x,ylabel) #计算基础信息熵
    bestInfoGain = 0.0 #定义最优信息增益
    bestFeature = -1 #定义最优特征值的索引
    #遍历计算所有特征值的特征增益
    for i in range(numFeatures):
        featList = [example[i] for example in x] #取出该列的所有特征值
        uniqueVals = set(featList) #去重，便于下面遍历计算
        nweEnt = 0.0 #定义条件熵
        for value in uniqueVals: #分别计算每种划分方式下的条件熵
            subdataset,subylabel = splitdataset(x,ylabel,i,value)
            p = len(subdataset)/float(len(x))
            newEnt +=p*calEnt(subdataset,subylabel)
        infoGain = baseEnt - newEnt #计算该属性的信息增益
        print(u"ID3中第%i特征的信息增益为：%.3f"%(i,infoGain))
        if(infoGain>baseInfoGain):  #若找到更优信息增益则更新
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

2.4处理样本中只有一个特征或者特征都一样的情况

#数据集已经处理了所有属性，但是类标签依然不是唯一的
#此时我们需要决定如何定义该叶子节点，在这种情况下，我们通常会采用多数表决的方法决定该叶子节点的分类
def majorityCnt(classList):
    '''
    parameters:
        classList(list):标签值列表
    returns:
        bestFeature(int):最优特征值
    '''
    classCont={}#创建空字典
    #给所有可能分类创建字典
    for vote in classList:
        #如果vote之前没有在字典里出现过，则新建key值，并赋值为0
        if vote not in classCont.keys():
            classCont[vote]=0
        classCont[vote]+=1#vote每多出现一次，字典值加1
    sortedClassCont=sorted(classCont.items(),key=operator.itemgetter(1),reverse=True)#将字典classCont按照字典值由大到小排列
    bestFeature=sortedClassCont[0][0]#得到字典第一个值的key值，即最优特征
    return bestFeature

2.5创建ID3决策树

def ID3_createTree(x,ylabel,xlabel):
    '''
    parameters:
        x(ndarry):特征值
        ylabel(ndarry):标签值
        xlabel(list):特征值标签列表
    returns:
        bestFeature(int):最优特征索引
    '''
    classList = list(ylabel)
    if classList.count(classList[0])==len(classList):
        return classList[0]
    if len(x[0])==1:
        return majorityCnt(classList)
    bestFeat = ID3_chooseBestFeatureToSplit(x,ylabel)
    bestFeatLabel = xlabel[bestFeat]
    print(u"此时最优索引为："+str(bestFeatLabel))
    ID3Tree = {bestFeatLabel:{}}
    xlabel.pop(bestFeat)
    featValues = [example[bestFeat] for example in x]
    uniqueVals = set(featValues)#将特征列表创建成为set集合，元素不可重复。创建唯一的分类标签列表
    for value in uniqueVals:#根据每种划分方式继续构造ID3决策树分支
        subxlabel = xlabel[:]#得到子集的特征值标签
        subdataset,subylabel=splitdataset(x,ylabel, bestFeat, value)#得到子集的特征值和标签值
        ID3Tree[bestFeatLabel][value] = ID3_createTree(subdataset,subylabel,subxlabel)#递归，继续构造ID3决策树分支
    return ID3Tree

2.6返回一条测试数据的标签值以及返回测试集数据的标签列表

#返回一条测试数据的标签值
def classify(inputTree, xlabel, testVec):
    '''
    parameters:
    	inputTree:训练好的决策树
        xlabel(list):特征值标签列表
        testVec(ndarray):一条测试数据
    returns:
    	classLabel(str):特征值标签
    '''    
    firstStr = list(inputTree.keys())[0]#得到字典的第一个key值
    secondDict = inputTree[firstStr]#根据key值得到下一个字典
    featIndex = xlabel.index(firstStr)#根据key值得到索引
    classLabel = '0'#定义变量classLabel，默认值为0
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':#判断secondDict[key]是否是字典格式
                classLabel = classify(secondDict[key], xlabel, testVec)#如果是字典格式，进行递归
            else:
                classLabel = secondDict[key]#如果不是字典格式，得到特征标签
    return int(classLabel)

#返回测试数据集的标签值列表
def classifytest(inputTree, xlabel, testDataSet):
    '''
    parameters:
    	inputTree:训练好的决策树
        xlabel(list):特征值标签列表
        testDataSet(ndarray):测试数据集
    returns:
    	classLabelAll(list):特征值标签列表
    '''    
    classLabelAll = []#创建空列表
    for testVec in testDataSet:#遍历每条数据
        classLabelAll.append(classify(inputTree, xlabel, testVec))#将每条数据得到的特征标签添加到列表
    return np.array(classLabelAll)

3.实例

$\bullet$

代码：

import pandas as pd
trainset=pd.read_csv(r'/data/shixunfiles/504e3c06cf9b458934ab9219e79089b5_1577169456204.csv',encoding='GBK')
xtrain=trainset.iloc[:,:-1].values
ytrain=trainset.iloc[:,-1].values
xlabel=list(trainset.columns[:-1])#特征标签需要转换为列表格式
id3tree=ID3_createTree(xtrain,ytrain,xlabel)
print(id3tree) #输出ID3决策树字典
#读取测试集
testset=pd.read_csv(r'/data/shixunfiles/526f60762237af646a4f458fe36f6bb7_1577169451986.csv',encoding='GBK')
xlabel2=list(testset.columns)#特征标签需要转换为列表格式
testdata=np.array(testset)#将测试数据转换为ndarray格式
classlist=classifytest(id3tree,xlabel2,testdata)
#打印预测结果
print(classlist)

结果：

ID3中第0特征的信息增益为：0.037
ID3中第1特征的信息增益为：0.339
ID3中第2特征的信息增益为：0.438
ID3中第3特征的信息增益为：0.193
此时最优索引为：有自己的房子
ID3中第0特征的信息增益为：0.157
ID3中第1特征的信息增益为：0.881
ID3中第2特征的信息增益为：0.000
ID3中第3特征的信息增益为：0.281
此时最优索引为：有工作
{'有自己的房子': {0: {'有工作': {0: 0, 1: 1}}, 1: 1}}
[0 1 1 0 1 0 0]

【数据库原理 • 一】数据库系统概念

前言数据库技术是计算机科学技术中发展最快，应用最广的技术之一，它是专门研究如何科学的组织和存储数据，如何高效地获取和处理数据的技术。它已成为各行各业存储数据、管理信息、共享资源和决策支持的最先进，最常用的技术。

让端到端智驾算法从梦想照进现实——自动驾驶大模型，一个模型全都搞定

《Planning-oriented Autonomous Driving》（以路径规划为导向的自动驾驶）论文，成功从9155篇投稿、2359篇接收论文、12篇入选最佳论文候选名单中脱颖而出。

Hive表类型--入门到入土（四）

Hive表类型 4.1 表分类在Hive中,表类型主要分为两种, 第一种：内部表 - 也叫管理表 - 表目录会创建

pytorch 实现mobilenet代码详解，了解深度可分离卷积计算。

mobilenet是一种轻量级网络，主要是想用于实时检测，那么那么它的优点就是训练速度快。它的设计点主要是深度卷积和逐点卷积，外加对通道数和分辨率加以改变，大幅度减少参数量。

Jquery操作复选框

//全选/取消全选 jQuery(function () { jQuery("#chbSelectAll").click(function () { if (this.

C# - 为值类型重定义相等性

为什么要为值类型重定义相等性原因主要有以下几点：值类型默认无法使用 == 操作符，除非对它进行重写再就是性能原因，因为值类型默

python中出现变量前后带下划线的是什么意思

前后没有下划线的是公有方法，前边有一个下划线的为私有方法或属性，子类无法继承，前边有两个下划线的一般是为了避免于子类属性或者方法名冲突，无法在外部直接访问。前后都有双下划线的为系统方法或属性。