太阳不下山 发表于 2021-7-1 22:58:02

R语言自主数据挖掘平台

  R语言可视化平台
多个数据集,同一个代码实现可视化挖掘?
  R语言有强大的可视化功能,不在进行过多阐述,明确告诉大家是可以解决这个问题的。步骤如下:

一、.数据读取
  1.读取和导入常用方法
你第一步要解决的问题是将数据导进去对吧?先不提及需要搭建的平台,首要任务是得解决读取数据的功能吧!
R语言中还有一些其他较为普遍的数据集读入方法,比如程序代码包,R文件,工作空间等。如下读取
**install.packages( )#安装包**
**BoLitce( ) #安装包**
**library( ) #加载包**
**source#读取R代码**
**dget    #读取R文件**
**load    #读取工作空间**
  2.读取xlsx中所有的sheet表格
#定义List,用list()函数来主动定义,用data.list[]对文件数据进行赋值
data.list<-list()
for (i in 1:2){
data.list[]=read.xlsx("M1.xlsx",i)
}
  3.生成多个sheet表格
    flie=list()
    dataflie=paste(1:2,".xlsx",sep="")
    for(i in 1:2){
    flie[]=paste("C:/Users/long/Desktop/",dataflie,sep="")
    write.xlsx(data.list2[],file)
    }
  4.读入文件夹下的数据文件
如何批量读取一个文件夹中的各种csv文件。
第一步设置环境变量
    path<- "C:/Users/long/Desktop"
    data <- list.files(micepath, pattern = "*.csv$", full.names = TRUE)
  第二步:文件信息放入list中读取
    files=list()
    for (i in 1:2){
      files=read.csv(data[],header = F,1)   
    }
  讲到这里,需要进行说明一下。当我们为了实现作业式提交的方法,将数据逐个提交到作业文件夹中,然后对数据进行读取,就可以进行该操作了,这能实现任何数据集的读取!可以避免不同文件名读取造成的问题,不需要每读取一次数据进行read.csv

二、.数据可视化图像
  1.包的介绍
tidyverse是一组处理与可视化R包的集合,其中ggplot2与dplyr最广为人知。
核心包有以下一些:
ggplot2 - 可视化数据
dplyr - 数据操作语法,可以用它解决大部分数据处理问题
tidyr - 清理数据
readr - 读入表格数据
purrr - 提供一个完整一致的工具集增强R的函数编程
tibble - 新一代数据框
stringr - 提供函数集用来处理字符数据
forcats - 提供有用工具用来处理因子问题
set.seed(1234)
library(tidyverse)
library(data.table)
n <- 5
nested_data <-
    letters %>%
    data.table(name=.) %>%
    mutate(size=runif(n = 5,min=1,max=10) %>% round
         ,mean=runif(n = 5,min=1,max=10)
         ,sd=runif(n = 5,min=1,max=10)
         ) %>%
    mutate(data =
               pmap(
                  list(name,size,mean,sd)
                  ,function(name,size,mean,sd){
                      data_frame(
                        var = rnorm(size*100,mean,sd)
                      ) %>%
                        set_names(name)
                  }
               )) %>%
    select(name,data)
  剩下的下次再进行说明!

  
页: [1]
查看完整版本: R语言自主数据挖掘平台