什么是可信网站,my网站域名,吉安网络科技有限公司,深圳市工程交易服务中心read_csv函数返回的数据类型是Dataframe类型
对于Dataframe类型使用条件表达式
dfdf.loc[df.loc[:,0]2]df: 这是一个DataFrame对象的变量名#xff0c;表示一个二维的表格型数据结构#xff0c;类似于电子表格或SQL表。 df.loc[:, 0]: 这是使用DataFrame的.loc属性来进行…read_csv函数返回的数据类型是Dataframe类型
对于Dataframe类型使用条件表达式
dfdf.loc[df.loc[:,0]2]df: 这是一个DataFrame对象的变量名表示一个二维的表格型数据结构类似于电子表格或SQL表。 df.loc[:, 0]: 这是使用DataFrame的.loc属性来进行选择操作。: 表示选择所有的行而 , 0 表示选择所有的列中的第一列。这个操作的结果是选取了DataFrame中的第一列数据。 df.loc[df.loc[:, 0] 2]: 这一部分是将条件筛选应用于DataFrame。具体而言它选择了第一列中等于2的行。内部的 df.loc[:, 0] 2 是一个条件表达式返回一个布尔型的Series其中元素为True表示对应行的第一列等于2False表示不等于2。 通过在loc中嵌套条件表达式可以实现返回布尔类型series从而输出对应条件的数据筛选后的。
综合起来整个语句的作用是从DataFrame中选择所有第一列等于2的行然后将结果重新赋值给变量df。换句话说它过滤了DataFrame只保留了第一列中值为2的行。 dropna中axis1和axis0分别代表什么
在 Pandas 的 dropna 方法中axis 参数用于指定操作的轴可以是行轴axis0或列轴axis1。具体解释如下axis0表示操作沿着行的方向进行即删除包含缺失值的行。如果某一行中至少有一个元素是缺失值整个行将被删除。 df.dropna(axis0)
axis1表示操作沿着列的方向进行即删除包含缺失值的列。如果某一列中至少有一个元素是缺失值整个列将被删除。 df.dropna(axis1)
使用这两个选项你可以根据需要删除DataFrame中包含缺失值的行或列。如果不提供 axis 参数默认值是 axis0即删除包含缺失值的行。
精简一下axis0对应行axis1对应列。 调用apriori算法之前要使用
te TransactionEncoder() # 定义模型转换成list of list形式
将 DataFrame 转换为 Python 列表。这样做的目的可能是为了后续的数据处理因为一些库比如 Apriori 算法可能更适用于处理列表而不是 DataFrame。
df_arrdf.values.tolist() df_tfte.fit_transform(df_arr)
列表中的数值全部转换称为bool类型数据 frequent_itemsets apriori(df,min_support0.4,use_colnamesTrue) # use_colnamesTrue表示使用元素名字默认的False使用列名代表元素
使用apriori算法设置最小置信度以及是否使用列标题。通过上述代码查找对应的频繁项集。 idx frequent_itemsets[itemsets].apply(lambda x: 2 in x)
创建一个索引数组其中每个元素表示对应的项集中是否包含元素2。对于 Series 中的每个元素这里使用了 apply 函数其中的 lambda x: 2 in x 是一个匿名函数表示对于每个频繁项集表示为 x检查元素2是否在其中。这一部分的结果是一个包含布尔值的 Series其中 True 表示对应的频繁项集中包含元素2而 False 表示不包含。 print(frequent_itemsets.loc[idx]) 输出包含2项的频繁项集。