Bu çalışmada beyaz şarabın kalitesinin ilişkili olduğu parametreleri anlamaya çalışıyoruz.
İlk olarak tidyverse paketimizi ve sonra verimizi yükleyelim.
library(tidyverse)
## -- Attaching packages ------------------------------------------------------------------------------------------ tidyverse 1.2.1 --
## <U+221A> ggplot2 2.2.1 <U+221A> purrr 0.2.4
## <U+221A> tibble 1.4.2 <U+221A> dplyr 0.7.4
## <U+221A> tidyr 0.7.2 <U+221A> stringr 1.2.0
## <U+221A> readr 1.1.1 <U+221A> forcats 0.2.0
## -- Conflicts --------------------------------------------------------------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
white=read.csv("C:/Users/yenia/Desktop/winequality-white.csv",sep=";")
Burada verimizde ayraç “;” olduğundan seperator olarak tanıtmamız gerekti.
Şimdi Veri setindeki sütun başlıklarını anlayalım:
names(white)
## [1] "fixed.acidity" "volatile.acidity" "citric.acid"
## [4] "residual.sugar" "chlorides" "free.sulfur.dioxide"
## [7] "total.sulfur.dioxide" "density" "pH"
## [10] "sulphates" "alcohol" "quality"
Özet bilgileri alarak veri incelemesine devam ediyoruz:
glimpse(white)
## Observations: 4,898
## Variables: 12
## $ fixed.acidity <dbl> 7.0, 6.3, 8.1, 7.2, 7.2, 8.1, 6.2, 7.0, 6...
## $ volatile.acidity <dbl> 0.27, 0.30, 0.28, 0.23, 0.23, 0.28, 0.32,...
## $ citric.acid <dbl> 0.36, 0.34, 0.40, 0.32, 0.32, 0.40, 0.16,...
## $ residual.sugar <dbl> 20.70, 1.60, 6.90, 8.50, 8.50, 6.90, 7.00...
## $ chlorides <dbl> 0.045, 0.049, 0.050, 0.058, 0.058, 0.050,...
## $ free.sulfur.dioxide <dbl> 45, 14, 30, 47, 47, 30, 30, 45, 14, 28, 1...
## $ total.sulfur.dioxide <dbl> 170, 132, 97, 186, 186, 97, 136, 170, 132...
## $ density <dbl> 1.0010, 0.9940, 0.9951, 0.9956, 0.9956, 0...
## $ pH <dbl> 3.00, 3.30, 3.26, 3.19, 3.19, 3.26, 3.18,...
## $ sulphates <dbl> 0.45, 0.49, 0.44, 0.40, 0.40, 0.44, 0.47,...
## $ alcohol <dbl> 8.8, 9.5, 10.1, 9.9, 9.9, 10.1, 9.6, 8.8,...
## $ quality <int> 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 5, 5, 5, 7,...
Verimizin büyüklüğü karşısında ortalma değerler üzerinden ilerlemeye karar veriyoruz. Ortalama değerleri kalite parametresine göre gruplayalım:
white %>%
group_by(quality) %>%
summarise(Ort_Sabit_asitlik=mean(fixed.acidity),Ort_Degisken_Asitlik=mean(volatile.acidity),Ort_Sitrik=mean(citric.acid),Ort_Seker=mean(residual.sugar),Ort_sSO2=mean(free.sulfur.dioxide),tSO2=mean(total.sulfur.dioxide),Ort_Yogunluk=mean(density),Ort_pH=mean(pH),Ort_Sulfat=mean(sulphates),Ort_Alkol=mean(alcohol))
Verilerimizi görselleştirerek ortalama değerlerin kalite için birleşim oranlarını görmeye çalışalım:
white2<-white %>%
group_by(quality) %>%
summarise(Ort_Sabit_asitlik=mean(fixed.acidity),Ort_Degisken_Asitlik=mean(volatile.acidity),Ort_Sitrik=mean(citric.acid),Ort_Seker=mean(residual.sugar),Ort_sSO2=mean(free.sulfur.dioxide),tSO2=mean(total.sulfur.dioxide),Ort_Yogunluk=mean(density),Ort_pH=mean(pH),Ort_Sulfat=mean(sulphates),Ort_Alkol=mean(alcohol))
white3<-white2 %>% gather(key=degisken, value=icerik,-quality)
ggplot(white3,aes(x=quality,y=icerik))+geom_bar(stat="identity",aes(fill=degisken))
Birbirlerinden farklı oranda gelen ölçülerin aradaki ölçek farkı nedeniyle üstüste bakıldığında yanıltıcı olduğunu keşfettik ve çalışmamızı belirli ölçekler üzerinde tek tek inceleme yaparak yürütmeye karar verdik ve bar plot ile çalışmamıza başladık.
white4<-white3 %>% filter(degisken=="Ort_Seker")
ggplot(white4,aes(x=quality,y=icerik))+geom_bar(stat="identity",aes(fill=degisken))
Tek bir şekille çalışmanın algı dağınıklığı ve zaman kaybına yol açması nedeniyle daha hızlı çalışma yollarını araştırmaya başladık ve bu ihtiyacımızın cevabı olarak multiplot fonksiyonunu bulduk.
multiplot <- function(..., plotlist=NULL, file, cols=1, layout=NULL) {
library(grid)
# Make a list from the ... arguments and plotlist
plots <- c(list(...), plotlist)
numPlots = length(plots)
# If layout is NULL, then use 'cols' to determine layout
if (is.null(layout)) {
# Make the panel
# ncol: Number of columns of plots
# nrow: Number of rows needed, calculated from # of cols
layout <- matrix(seq(1, cols * ceiling(numPlots/cols)),
ncol = cols, nrow = ceiling(numPlots/cols))
}
if (numPlots==1) {
print(plots[[1]])
} else {
# Set up the page
grid.newpage()
pushViewport(viewport(layout = grid.layout(nrow(layout), ncol(layout))))
# Make each plot, in the correct location
for (i in 1:numPlots) {
# Get the i,j matrix positions of the regions that contain this subplot
matchidx <- as.data.frame(which(layout == i, arr.ind = TRUE))
print(plots[[i]], vp = viewport(layout.pos.row = matchidx$row,
layout.pos.col = matchidx$col))
}
}
}
Multiplot fonksiyonu kullanarak en önemli gördüğümüz dört değişkeni çizdirdik.
#white4<-white3 %>% filter(degisken=="Ort_Seker")
p1<-ggplot(white3 %>% filter(degisken=="Ort_Seker"),aes(x=quality,y=icerik))+geom_bar(stat="identity",aes(fill=degisken))
p2<-ggplot(white3 %>% filter(degisken=="Ort_pH"),aes(x=quality,y=icerik))+geom_bar(stat="identity",aes(fill=degisken))
p3<-ggplot(white3 %>% filter(degisken=="Ort_Alkol"),aes(x=quality,y=icerik))+geom_bar(stat="identity",aes(fill=degisken))
p4<-ggplot(white3 %>% filter(degisken=="Ort_Yogunluk"),aes(x=quality,y=icerik))+geom_bar(stat="identity",aes(fill=degisken))
multiplot(p1,p2,p3,p4, cols=2)
Elde edilen bar grafik sonucunda pH ve yoğunluk değişkenlerinin daha detaylı incelenebilmesi için daha hassas ölçeğe ihtiyaç olduğu anlaşıldı.Bunun için ilk olarak scale_y_continuous fonksiyonunu kullanarak çözüm bulmaya çalıştık. Ancak;bar grafiklerin her zaman sıfırdan başlaması sebebiyle ölçek değişikliği sonucunda verimizi görsel olarak kaybettik.
p1<-ggplot(white3 %>% filter(degisken=="Ort_Seker"),aes(x=quality,y=icerik))+geom_bar(stat="identity",aes(fill=degisken))
p2<-ggplot(white3 %>% filter(degisken=="Ort_pH"),aes(x=quality,y=icerik))+geom_bar(stat="identity",aes(color=degisken))+scale_y_continuous(limits = c(2.8,3.8))
p3<-ggplot(white3 %>% filter(degisken=="Ort_Alkol"),aes(x=quality,y=icerik))+geom_bar(stat="identity",aes(fill=degisken))
p4<-ggplot(white3 %>% filter(degisken=="Ort_Yogunluk"),aes(x=quality,y=icerik))+geom_bar(stat="identity",aes(color=degisken))+scale_y_continuous(limits = c(0.992,0.9955))
multiplot(p1,p2,p3,p4, cols=2)
## Warning: Removed 1 rows containing missing values (position_stack).
Çizgi grafiğin otoscale özelliğini kullanarak çizim aşamasını bitirdik.
p1<-ggplot(white3 %>% filter(degisken=="Ort_Seker"),aes(x=quality,y=icerik))+geom_line(aes(color=degisken))
p2<-ggplot(white3 %>% filter(degisken=="Ort_pH"),aes(x=quality,y=icerik))+geom_line(aes(color=degisken))
p3<-ggplot(white3 %>% filter(degisken=="Ort_Alkol"),aes(x=quality,y=icerik))+geom_line(aes(color=degisken))
p4<-ggplot(white3 %>% filter(degisken=="Ort_Yogunluk"),aes(x=quality,y=icerik))+geom_line(aes(color=degisken))
multiplot(p1,p2,p3,p4, cols=2)
Yapılan inceleme sonucunda değişkenler için şu bulgulara ulaştık: 1-Şeker, “kararında” kullanılmalı 2-Belirli kalitenin üstündeki şaraplarda alkol miktarı arttıkça şarabın kalitesi yükselmektedir. 3-pH’ın yükselmesi ve sıvının bazikleşmesi kaliteyi ciddi oranda artırır. 4-Şarabın yoğunluğunun artırılması kalitede negatif etkilidir.
Buraya kadar manuel gözlem yöntemleri ile çalışmıştık. Bu aşamada analitik yöntemler ile çalışmamızı devam ettirdik.
Öncelikle tanımlayıcı (descriptive) testler yapmalıyız.
Bileşenlerin etkisini incelemek istediğimizde; -şekerin yükseldiğinde kalitenin düştüğünü -yoğunluk arttığında kalitenin düştüğünü net olarak görebiliyoruz
plot(white,col=2,pch=".",cex=4)
Regresyon analizine tabi tuttuğumuzda sitrik asit, klorit ve toplam kükürt miktarının kalite için önemli parametreler olmadığını keşfediyoruz. Ancak; R2 değerimizin %28 oluşu, lineer regresyonun başarılı bir model olmadığını gösteriyor.
regr01=lm(quality~.,white)
summary(regr01)
##
## Call:
## lm(formula = quality ~ ., data = white)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.8348 -0.4934 -0.0379 0.4637 3.1143
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.502e+02 1.880e+01 7.987 1.71e-15 ***
## fixed.acidity 6.552e-02 2.087e-02 3.139 0.00171 **
## volatile.acidity -1.863e+00 1.138e-01 -16.373 < 2e-16 ***
## citric.acid 2.209e-02 9.577e-02 0.231 0.81759
## residual.sugar 8.148e-02 7.527e-03 10.825 < 2e-16 ***
## chlorides -2.473e-01 5.465e-01 -0.452 0.65097
## free.sulfur.dioxide 3.733e-03 8.441e-04 4.422 9.99e-06 ***
## total.sulfur.dioxide -2.857e-04 3.781e-04 -0.756 0.44979
## density -1.503e+02 1.907e+01 -7.879 4.04e-15 ***
## pH 6.863e-01 1.054e-01 6.513 8.10e-11 ***
## sulphates 6.315e-01 1.004e-01 6.291 3.44e-10 ***
## alcohol 1.935e-01 2.422e-02 7.988 1.70e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7514 on 4886 degrees of freedom
## Multiple R-squared: 0.2819, Adjusted R-squared: 0.2803
## F-statistic: 174.3 on 11 and 4886 DF, p-value: < 2.2e-16
Bir önceki lineer yaklaşımda a+bx yapısını kullanmıştık. Bu defa a gibi bir değişkenin olmadığını varsayalım ve “intersect” değişkenini (sabitini) kaldıralım ve testi tekrar edelim. Tekrar edilen test R2 parametresini %98 den fazla bir duruma getirdi. Başka bir ifade ile yapının %99a yakın bölümünü modelle açıklayabilir duruma geldik. Bu durumda iken hangi parametrenin ne derece önemli lduğunu yorumlayalım:
-sitrik asit miktarı, kalite için önemli bir parametre değildir. -klorit miktarı, kalite için önemli bir parametre değildir. -pH ve toplam kükürt miktarının değişimi, kaliteyi az etkilemektedir.
regr02=lm(quality~-1+.,white)
summary(regr02)
##
## Call:
## lm(formula = quality ~ -1 + ., data = white)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.9144 -0.4958 -0.0333 0.4675 3.1762
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## fixed.acidity -0.0505906 0.0150754 -3.356 0.000797 ***
## volatile.acidity -1.9585102 0.1138903 -17.196 < 2e-16 ***
## citric.acid -0.0293492 0.0961648 -0.305 0.760229
## residual.sugar 0.0249884 0.0025917 9.642 < 2e-16 ***
## chlorides -0.9425824 0.5430204 -1.736 0.082660 .
## free.sulfur.dioxide 0.0047908 0.0008390 5.710 1.20e-08 ***
## total.sulfur.dioxide -0.0008776 0.0003731 -2.352 0.018699 *
## density 2.0420461 0.3532997 5.780 7.94e-09 ***
## pH 0.1683951 0.0835957 2.014 0.044022 *
## sulphates 0.4164536 0.0973279 4.279 1.91e-05 ***
## alcohol 0.3656334 0.0111203 32.880 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7562 on 4887 degrees of freedom
## Multiple R-squared: 0.9839, Adjusted R-squared: 0.9838
## F-statistic: 2.707e+04 on 11 and 4887 DF, p-value: < 2.2e-16
Bu defa karar ağaçlarımızla tanımlayıcı çalışmamızı sürdürelim: Variance importance bölümünde alkol miktarının en önemli, yoğunluk, değişken asitlik oranlarının nispeten önemli ama pH değerinin görece en önemsiz kalite belirleyici faktör olduğunu görüyoruz.
library(rpart)
library(rpart.plot)
agacmodeli=rpart(quality~.,white)
agacmodeli
## n= 4898
##
## node), split, n, deviance, yval
## * denotes terminal node
##
## 1) root 4898 3840.99000 5.877909
## 2) alcohol< 10.85 3085 1844.90600 5.605511
## 4) volatile.acidity>=0.2525 1610 775.33480 5.360870 *
## 5) volatile.acidity< 0.2525 1475 868.03800 5.872542
## 10) volatile.acidity>=0.2075 744 370.02020 5.713710 *
## 11) volatile.acidity< 0.2075 731 460.14500 6.034200
## 22) density< 0.99788 614 337.98860 5.929967 *
## 23) density>=0.99788 117 80.47863 6.581197 *
## 3) alcohol>=10.85 1813 1377.65900 6.341423
## 6) free.sulfur.dioxide< 11.5 114 123.62280 5.412281 *
## 7) free.sulfur.dioxide>=11.5 1699 1149.01600 6.403767
## 14) alcohol< 11.74167 822 542.07300 6.197080 *
## 15) alcohol>=11.74167 877 538.91450 6.597491 *
summary(agacmodeli)
## Call:
## rpart(formula = quality ~ ., data = white)
## n= 4898
##
## CP nsplit rel error xerror xstd
## 1 0.16100651 0 1.0000000 1.0003233 0.02127454
## 2 0.05246918 1 0.8389935 0.8393692 0.02002615
## 3 0.02734202 2 0.7865243 0.7928140 0.01956267
## 4 0.01771117 3 0.7591823 0.7668382 0.01854087
## 5 0.01035548 4 0.7414711 0.7510928 0.01806168
## 6 0.01000000 6 0.7207602 0.7423509 0.01788770
##
## Variable importance
## alcohol density volatile.acidity
## 34 23 12
## chlorides total.sulfur.dioxide free.sulfur.dioxide
## 11 8 5
## residual.sugar citric.acid sulphates
## 5 1 1
## pH
## 1
##
## Node number 1: 4898 observations, complexity param=0.1610065
## mean=5.877909, MSE=0.7841955
## left son=2 (3085 obs) right son=3 (1813 obs)
## Primary splits:
## alcohol < 10.85 to the left, improve=0.16100650, (0 missing)
## density < 0.992025 to the right, improve=0.11010040, (0 missing)
## chlorides < 0.0395 to the right, improve=0.07812748, (0 missing)
## total.sulfur.dioxide < 158.5 to the right, improve=0.04360317, (0 missing)
## free.sulfur.dioxide < 11.75 to the left, improve=0.03625599, (0 missing)
## Surrogate splits:
## density < 0.992005 to the right, agree=0.865, adj=0.637, (0 split)
## chlorides < 0.0375 to the right, agree=0.755, adj=0.339, (0 split)
## total.sulfur.dioxide < 114.5 to the right, agree=0.692, adj=0.169, (0 split)
## residual.sugar < 5.05 to the right, agree=0.667, adj=0.099, (0 split)
## sulphates < 0.345 to the right, agree=0.643, adj=0.036, (0 split)
##
## Node number 2: 3085 observations, complexity param=0.05246918
## mean=5.605511, MSE=0.5980247
## left son=4 (1610 obs) right son=5 (1475 obs)
## Primary splits:
## volatile.acidity < 0.2525 to the right, improve=0.10923780, (0 missing)
## free.sulfur.dioxide < 13.5 to the left, improve=0.03824083, (0 missing)
## citric.acid < 0.235 to the left, improve=0.03184711, (0 missing)
## alcohol < 10.11667 to the left, improve=0.03071881, (0 missing)
## pH < 3.315 to the left, improve=0.01537558, (0 missing)
## Surrogate splits:
## total.sulfur.dioxide < 159.5 to the right, agree=0.596, adj=0.155, (0 split)
## citric.acid < 0.265 to the left, agree=0.582, adj=0.127, (0 split)
## alcohol < 9.85 to the left, agree=0.563, adj=0.086, (0 split)
## pH < 3.295 to the left, agree=0.561, adj=0.081, (0 split)
## density < 0.99423 to the right, agree=0.551, adj=0.060, (0 split)
##
## Node number 3: 1813 observations, complexity param=0.02734202
## mean=6.341423, MSE=0.7598782
## left son=6 (114 obs) right son=7 (1699 obs)
## Primary splits:
## free.sulfur.dioxide < 11.5 to the left, improve=0.07623107, (0 missing)
## alcohol < 11.74167 to the left, improve=0.06019267, (0 missing)
## total.sulfur.dioxide < 67.5 to the left, improve=0.03123416, (0 missing)
## fixed.acidity < 7.35 to the right, improve=0.02877365, (0 missing)
## residual.sugar < 1.275 to the left, improve=0.02534408, (0 missing)
## Surrogate splits:
## total.sulfur.dioxide < 53.5 to the left, agree=0.946, adj=0.149, (0 split)
## volatile.acidity < 0.875 to the right, agree=0.938, adj=0.018, (0 split)
##
## Node number 4: 1610 observations
## mean=5.36087, MSE=0.4815744
##
## Node number 5: 1475 observations, complexity param=0.01035548
## mean=5.872542, MSE=0.5885003
## left son=10 (744 obs) right son=11 (731 obs)
## Primary splits:
## volatile.acidity < 0.2075 to the right, improve=0.04363035, (0 missing)
## free.sulfur.dioxide < 13.5 to the left, improve=0.02336004, (0 missing)
## fixed.acidity < 9.1 to the right, improve=0.01926279, (0 missing)
## alcohol < 10.11667 to the left, improve=0.01690201, (0 missing)
## residual.sugar < 12.525 to the left, improve=0.01643145, (0 missing)
## Surrogate splits:
## residual.sugar < 6.75 to the right, agree=0.612, adj=0.218, (0 split)
## density < 0.99533 to the right, agree=0.589, adj=0.171, (0 split)
## total.sulfur.dioxide < 131.5 to the right, agree=0.586, adj=0.166, (0 split)
## free.sulfur.dioxide < 34.5 to the right, agree=0.579, adj=0.150, (0 split)
## alcohol < 9.775 to the left, agree=0.572, adj=0.135, (0 split)
##
## Node number 6: 114 observations
## mean=5.412281, MSE=1.084411
##
## Node number 7: 1699 observations, complexity param=0.01771117
## mean=6.403767, MSE=0.6762895
## left son=14 (822 obs) right son=15 (877 obs)
## Primary splits:
## alcohol < 11.74167 to the left, improve=0.05920581, (0 missing)
## fixed.acidity < 7.35 to the right, improve=0.02821988, (0 missing)
## pH < 3.245 to the left, improve=0.02366385, (0 missing)
## chlorides < 0.0395 to the right, improve=0.02329787, (0 missing)
## density < 0.98989 to the right, improve=0.02191549, (0 missing)
## Surrogate splits:
## density < 0.990795 to the right, agree=0.712, adj=0.405, (0 split)
## volatile.acidity < 0.2675 to the left, agree=0.640, adj=0.255, (0 split)
## chlorides < 0.0365 to the right, agree=0.633, adj=0.242, (0 split)
## total.sulfur.dioxide < 142.5 to the right, agree=0.574, adj=0.119, (0 split)
## residual.sugar < 1.675 to the left, agree=0.573, adj=0.118, (0 split)
##
## Node number 10: 744 observations
## mean=5.71371, MSE=0.4973389
##
## Node number 11: 731 observations, complexity param=0.01035548
## mean=6.0342, MSE=0.6294733
## left son=22 (614 obs) right son=23 (117 obs)
## Primary splits:
## density < 0.99788 to the left, improve=0.09057531, (0 missing)
## residual.sugar < 12.575 to the left, improve=0.08646014, (0 missing)
## alcohol < 9.05 to the right, improve=0.06988401, (0 missing)
## free.sulfur.dioxide < 10.5 to the left, improve=0.04391815, (0 missing)
## fixed.acidity < 8.45 to the right, improve=0.03138537, (0 missing)
## Surrogate splits:
## residual.sugar < 12.75 to the left, agree=0.933, adj=0.581, (0 split)
## alcohol < 9.15 to the right, agree=0.910, adj=0.436, (0 split)
##
## Node number 14: 822 observations
## mean=6.19708, MSE=0.6594562
##
## Node number 15: 877 observations
## mean=6.597491, MSE=0.6144977
##
## Node number 22: 614 observations
## mean=5.929967, MSE=0.55047
##
## Node number 23: 117 observations
## mean=6.581197, MSE=0.6878516
Aynı belirlemeyi bar grafik cinsinden elde edelim:
#burada degiskenlerin onemini gosteriyor
barplot(agacmodeli$variable.importance)
Bu kez karar ağacımız ile kaliteyi etkileyen faktörler için parametre etkilerini görelim:
#gorsel olarak agac
rpart.plot(agacmodeli)