Veri için: https://www.kaggle.com/shivam2503/diamonds/data

library(rpart)
library(rpart.plot)
library(dplyr)
library(ggplot2)
setwd("C:\\Users\\user\\Desktop\\Rcalismalar")
elmas_veri <- read.table("diamonds.csv", header=TRUE, sep=",")

Değişkenlerin Fiyata olan etkisini hesaplayarak tahmini değer oluşturuldu.Bunun sonucunda tahmin başarı oranı %95.

regrelmas=lm(price~-1+.,elmas_veri)
summary(regrelmas)
## 
## Call:
## lm(formula = price ~ -1 + ., data = elmas_veri)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -21376.0   -592.4   -183.5    376.4  10694.2 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## carat        11256.978     48.628 231.494  < 2e-16 ***
## cutFair       2184.477    408.197   5.352 8.76e-08 ***
## cutGood       2764.229    402.044   6.875 6.25e-12 ***
## cutIdeal      3017.389    394.535   7.648 2.08e-14 ***
## cutPremium    2946.621    398.480   7.395 1.44e-13 ***
## cutVery Good  2911.260    398.604   7.304 2.84e-13 ***
## colorE        -209.118     17.893 -11.687  < 2e-16 ***
## colorF        -272.854     18.093 -15.081  < 2e-16 ***
## colorG        -482.039     17.716 -27.209  < 2e-16 ***
## colorH        -980.267     18.836 -52.043  < 2e-16 ***
## colorI       -1466.244     21.162 -69.286  < 2e-16 ***
## colorJ       -2369.398     26.131 -90.674  < 2e-16 ***
## clarityIF     5345.102     51.024 104.757  < 2e-16 ***
## claritySI1    3665.472     43.634  84.005  < 2e-16 ***
## claritySI2    2702.586     43.818  61.677  < 2e-16 ***
## clarityVS1    4578.398     44.546 102.779  < 2e-16 ***
## clarityVS2    4267.224     43.853  97.306  < 2e-16 ***
## clarityVVS1   5007.759     47.160 106.187  < 2e-16 ***
## clarityVVS2   4950.814     45.855 107.967  < 2e-16 ***
## depth          -63.806      4.535 -14.071  < 2e-16 ***
## table          -26.474      2.912  -9.092  < 2e-16 ***
## x            -1008.261     32.898 -30.648  < 2e-16 ***
## y                9.609     19.333   0.497    0.619    
## z              -50.119     33.486  -1.497    0.134    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1130 on 53916 degrees of freedom
## Multiple R-squared:  0.9593, Adjusted R-squared:  0.9593 
## F-statistic: 5.298e+04 on 24 and 53916 DF,  p-value: < 2.2e-16
plot(elmas_veri$price,regrelmas$fitted.values, xlab = 'gerçek', ylab = 'tahmini')

Grafikte de görüldüğü gibi elmas fiyatına en çok etki eden değişkenler carat, y, x, z dir.

agac_model=rpart(price~.,elmas_veri)
rpart.plot(agac_model)

barplot(agac_model$variable.importance)

Carat arttıkça elmasın fiyatında artış görülmektedir. Grafik kesim kalitesine göre dağılımı da içermektedir.

ggplot(elmas_veri, aes(x=carat, y=price, color=cut)) + geom_point()