Veri için: https://www.kaggle.com/shivam2503/diamonds/data
library(rpart)
library(rpart.plot)
library(dplyr)
library(ggplot2)
setwd("C:\\Users\\user\\Desktop\\Rcalismalar")
elmas_veri <- read.table("diamonds.csv", header=TRUE, sep=",")
Değişkenlerin Fiyata olan etkisini hesaplayarak tahmini değer oluşturuldu.Bunun sonucunda tahmin başarı oranı %95.
regrelmas=lm(price~-1+.,elmas_veri)
summary(regrelmas)
##
## Call:
## lm(formula = price ~ -1 + ., data = elmas_veri)
##
## Residuals:
## Min 1Q Median 3Q Max
## -21376.0 -592.4 -183.5 376.4 10694.2
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## carat 11256.978 48.628 231.494 < 2e-16 ***
## cutFair 2184.477 408.197 5.352 8.76e-08 ***
## cutGood 2764.229 402.044 6.875 6.25e-12 ***
## cutIdeal 3017.389 394.535 7.648 2.08e-14 ***
## cutPremium 2946.621 398.480 7.395 1.44e-13 ***
## cutVery Good 2911.260 398.604 7.304 2.84e-13 ***
## colorE -209.118 17.893 -11.687 < 2e-16 ***
## colorF -272.854 18.093 -15.081 < 2e-16 ***
## colorG -482.039 17.716 -27.209 < 2e-16 ***
## colorH -980.267 18.836 -52.043 < 2e-16 ***
## colorI -1466.244 21.162 -69.286 < 2e-16 ***
## colorJ -2369.398 26.131 -90.674 < 2e-16 ***
## clarityIF 5345.102 51.024 104.757 < 2e-16 ***
## claritySI1 3665.472 43.634 84.005 < 2e-16 ***
## claritySI2 2702.586 43.818 61.677 < 2e-16 ***
## clarityVS1 4578.398 44.546 102.779 < 2e-16 ***
## clarityVS2 4267.224 43.853 97.306 < 2e-16 ***
## clarityVVS1 5007.759 47.160 106.187 < 2e-16 ***
## clarityVVS2 4950.814 45.855 107.967 < 2e-16 ***
## depth -63.806 4.535 -14.071 < 2e-16 ***
## table -26.474 2.912 -9.092 < 2e-16 ***
## x -1008.261 32.898 -30.648 < 2e-16 ***
## y 9.609 19.333 0.497 0.619
## z -50.119 33.486 -1.497 0.134
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1130 on 53916 degrees of freedom
## Multiple R-squared: 0.9593, Adjusted R-squared: 0.9593
## F-statistic: 5.298e+04 on 24 and 53916 DF, p-value: < 2.2e-16
plot(elmas_veri$price,regrelmas$fitted.values, xlab = 'gerçek', ylab = 'tahmini')
Grafikte de görüldüğü gibi elmas fiyatına en çok etki eden değişkenler carat, y, x, z dir.
agac_model=rpart(price~.,elmas_veri)
rpart.plot(agac_model)
barplot(agac_model$variable.importance)
Carat arttıkça elmasın fiyatında artış görülmektedir. Grafik kesim kalitesine göre dağılımı da içermektedir.
ggplot(elmas_veri, aes(x=carat, y=price, color=cut)) + geom_point()