当数据挖掘遇到数据量不够时，这几个Python技巧为你化解难题

来源：资讯 2023年02月26日 12:15

533

常为似性的指标范围是“0-1”,“0”意味著是最差的结果，而“1”意味著是最难得的结果，而针对以上分析报告出来的结果意味著我们全面性还并不需要进一步的模板调优。

CTGAN

随着常为关学术研究的进一步深入，2019年在温哥华举行的第33届神经信息处理系统全才会上，另外的教授驳斥了更进一步信息处理Conditional Tabular Generative Adversarial Networks，前身CTGAN，所谓就是通过分解结盟网络GAN来建立和基础催转化的数据集表。

对于分解结盟的信息处理GANs而言，其中才会第一个网络为分解器，而第二个网络为鉴别器，之前分解器产生出来的数据集表并没有被鉴别器分辨出其中才会的相似之处。每一次我们来看一下其中才会的方式中才会。

import pandas as pd

## 这边比如说了和后面不一样的数据集集

data = pd.read_csv('train.csv')

data.head()

output

针对一维型的外观上变量，CTGAN基本概念也可以催转化相同的数据集，字符串如下

discrete_columns = ['week',

'Center_id',

'Meal_id',

'Emailer_for_promotion',

'homepage_featured']

ctgan = CTGANSynthesizer(batch_size=50,epochs=5,verbose=False)

ctgan.fit(data,discrete_columns)

## 将锻炼好的基本概念保存依然

ctgan.save('ctgan-food-demand.pkl')

## 分解200条数据集集

samples = ctgan.sample(200)

samples.head()

output

我们罗列出并不需要之前催转化来依照的外观上变量，前面的例子之外才会是罗列出了一系列的一维型外观上变量，然后我们设定好batch_size、epochs以及verbose模板开展锻炼，之前我们还是通过常为相同的方法来分析报告基本概念的效能

from sdv.evaluation import evaluate

evaluate(new_data, data)

总结

本文主要是立足于在人工信息处理的处理过程中才会长期存在数据集量不足的情况，解说了Faker可选和SDV可选，以及CTGAN基本概念，通过人工信息处理和深度学习等行为来分解一些数据集供数据集科学家适用。因为这些基本概念也是近年来刚出来属于较为前沿的内容，小编在对其开展表述的时候长期存在理解有不确定性的情况，这里也是建议读者多去上网开展查阅。

。

扶他林和英太青哪个效果好
郑州男科哪家医院最好
湖北白癜风医院哪里比较好
信阳看妇科哪家医院最好
贵州男科检查哪些项目

标签：数据数据量难题技巧

上一篇：马伊琍健身房与帅气猛男单独合影，她肩膀靠男方胸口画面纠结

下一篇：哈勃望远镜发现“超大准确性黑洞的祖先”：诞生于大爆炸后不久