统计建模与R软件实验报告

发布时间:2022-06-25 11:55:02   来源:党团工作    点击:   
字号:

 开课学院、实验室:

 数学与统计学院 实验时间 :2013 年 3 月 日

  实验项目 名 称 多维数组和矩阵 实验项目类型 验证 演示 综合 设计 其他 指导 教师 张应应 成 绩

  一、 实验目的 1• 了解 R 软件的基本功能以及基本操作 2. 掌握 R 软件的基本操作 二、 实验内容 生成一个 5 阶的 Hilbert 矩阵 1 H (h j ) nn, h ij _ ,i, j 1,2,...n. i j 1 (1) 计算 Hilbert 矩阵 H 的行列式 (2) 求 H 的逆矩阵 (3) 求 H 的特征值和特征向量。

 三、 实验原理、方法(算法)、步骤 1. 函数 det(A) 是求矩阵 A 的行列式的值 2. 求矩阵 A 的逆,其命令形式为 slove(A) 3. 函数 eigen ( Sn )是求对称矩阵 Sm 的特征值与特征向量 n<-5;x<-array(0,dim=c (n,n)) for (i in 1:n){for (j in 1:n){x[i,j]v-1/(i+j-1)}};x det(x) solve(x) eige n(x) 四、 实验环境(所用软件、硬件等)及实验数据文件 软件:

 R 2.15.3 五、 实验结果及实例分析

 教师签名 年 月曰

  > n< _5;x<_array(0,dim=c (n,n)) > for (i in 1:n){ + for (j in 1:n){ + x[i,j]<-1/(i+j-1) + } + };x [,1] [,2] [,3] [,4] [,5] [1,] 1.0000000 0.5000000 0.3333333 0.2500000 0.2000000 [2,] 0.5000000 0.3333333 0.2500000 0.2000000 0.1666667 [3,] 0.3333333 0.2500000 0.2000000 0.1666667 0.1428571 [4,] 0.2500000 0.2000000 0.1666667 0.1428571 0.1250000 [5,] 0.2000000 0.1666667 0.1428571 0.1250000 0.1111111 > det(x) [1] 3.749295e-12 > solve(x) [,2] [,3] [,4] [,5]

 [,1] [1,] 25 -300 1050 -1400 630 [2,] -300 4800 -18900 26880 -12600 [3,] 1050 -18900 79380 -■117600 56700 [4,] -1400 26880 - ■117600 179200 -88200 [5,] 630 -12600 56700 -88200 44100

 > eige n(x) $values [1] 1.567051e+00 2.085342e-01 1.140749e-02 3.058980e-04 3.287929e-06 $vectors [,1] [,2] [,3] [,4] [,5] [1,] 0.7678547 0.6018715 -0.2142136 0.04716181 0.006173863 [2,] 0.4457911 -0.2759134 0.7241021 -0.43266733 -0.116692747 [3,] 0.3215783 -0.4248766 0.1204533 0.66735044 0.506163658 [4,] 0.2534389 -0.4439030 -0.3095740 0.23302452 -0.767191193 [5,] 0.2098226 -0.4290134 -0.5651934 -0.55759995 0.376245545 分析:从实验结果来看。

 R 软件在处理数据上相当准确,方便。

 开课学院、实验室:

 数学与统计学院 实验时间 :2013 年 3 月 日

  实验项目 描述统计量 实验项目类型 名 称 验证 演示 综合 设计 其他 指导 教师 张应应 成 绩

  、实验目的

 1. 掌握利用 R 软件描述统计量的方法 2. 学会利用 R 软件绘制数据的分布图 3. 掌握多元数据的数据特征与相关分析在 R 软件中的操作 、实验内容 用 Pearson 相关检验法检验习题 3.7 中的身高与体重是否相关 三、实验原理、方法(算法)、步骤 Pearson 相关性检验:利用统计量 t 服从自由度为 n-2 的 t 分布的性质,对数据 X 和 丫 的相 关性进行检验。

 r xy n 2

 t

 _______

 r xy 其中 四、实验环境(所用软件、硬件等)及实验数据文件 R 2.15.3 数据文件 3.7 数据 .txt ,其内容如下: 学号姓名性别年龄身高体重 01 Alice F 13 56.5 84.0 02 Becka F 13 65.3 98.0 03 Gail F 14 64.3 90.0 04 Kare n F 12 56.3 77.0 05 Kathy F 12 59.8 84.5 06 Mary F 15 66.5 112.0 07 Sandy F 11 51.3 50.5 08 Sharo n F 15 62.5 112.5 09 Tammy F 14 62.8 102.5 10 Alfred M 14 69.0 112.5 11 Duke M 14 63.5 102.5

 教师签名 年 月曰

  12 Guido M 15 67.0 133.0 13 James M 12 57.3 83.0 14 Jeffrey M 13 62.5 84.0 15 John M 12 59.0 99.5 16 Philip M 16 72.0 150.0 17 Robert M 12 64.8 128.0 18 Thomas M 11 57.5 85.0 19 William M 15 66.5 112.0 五、实验结果及实例分析 student<-read.table("3.7 数据.txt",header=T) attach(stude nt) > cor.test(身高 , 体重 ) #Pearson 相关性检验 Pears on"s product-mome nt correlati on data: 身高 and 体重 t = 7.5549, df = 17, p-value = 7.887e-07 alter native hypothesis: true correlatio n is not equal to 0 95 perce nt con fide nee in terval: 0.7044314 0.9523101 sample estimates: cor 0.8777852 其 p 值 7.887e-07<0.05,拒绝原假设,所以身高与体重相关

 开课学院、实验室: 数学与统计学院 实验时间 :

 2013 年 月 日

  实验项目 参数估计 实验项目类型 名 称 验证 演示 综合 设计 其他 指导 教师 张应应 成 绩

  、实验目的

 1 、学会利用 R 软件完成一个和两个正态总体的区间估计。

 2 、学会利用 R 软件完成非正态总体的区间估计。

 3 、学会利用 R 软件进行单侧置信区间估计 、实验内容 正常人的脉搏平均每分钟 72 次,某一声测得 10 例四乙基铅中毒患者的脉搏数(次 /min )如 下:

 54 67 68 78 70 66 67 70 65 69 已知人的脉搏次数服从正态分布,试计算这 10 名患者平均脉搏次数的点估计和 95% 勺区间估 计,并做单侧区间估计,试分析这 10 名患者的平均脉搏次数是否低于正常人的平均脉搏次 数。

 三、实验原理、方法(算法)、步骤 假设正态总体 X ~ N ( , 2 ) , X 1 ,X 2 , X n 为来自总体 X 的一个样本, 1 为置信度, X 为 样本均值, S 2 为样本方差。

 2已知和未知情况下,均值 的单侧置信区间估计。分别讨论总体方差 若2 已知,得到 P X

 Z a 1 于是得到的置信度为 P

 X— 乙

 1 1 的单侧置信区间分别为 X

  Z a ,

 , Jn 因此,的置信度为 X 〒 Z a 一 :

 n , 若2未知,得到 "X 的单侧置信下限、上限分别为: ——乙 、 n P XS 于是得到 — S X —t a (n 1), , 、 n 因此, 的置信度为 1 t a (n 1) 的置信度为 X P t a (n 1) 1 S

 L 的单侧置信区间分别为 S ,X 「 n

 t a (n 1) 的单侧置信下限、上限分别为

 1) , 教师签名 年 月曰

 数据见实验内容,所用软件: 五、实验结果及实例分析 在 R 软件中运行代码: > x<-c(54,67,68,78,70,66,67,70,65,69) > t.test(x) #做单样本正态分布区间估计 One Sample t-test data: x t = 35.947, df = 9, p-value = 4.938e-11 alter native hypothesis: true mea n is not equal to 0 95 perce nt con fide nee in terval: 63.1585 71.6415 sample estimates: mean of x 67.4 ####平均脉搏点估计为 67.4, 95%置信度的区间估计为 [63.1585, 71.6415]。

 > t.test(x,alternative="less",mu=72) #做单样本正态分布单侧区间估计 One Sample t-test data: x t = -2.4534, df = 9, p-value = 0.01828 alter native hypothesis: true mea n is less tha n 72 95 perce nt con fide nee in terval: -Inf 70.83705 sample estimates: mea n of x 67.4 p-value = 0.01828<0.05,拒绝原假设,平均脉搏低于常人。X S

 t a (n .n X S

 t a (n .n 1) 四、实验环境(所用软件、硬件等)及实验数据文件 R2.15.1

 开课学院、实验室:

 实验时间 :2013 年 月 日

  实验项目 假设检验 实验项目类型 名 称 验证 演示 综合 设计 其他 指导 教师 张应应 成 绩

  一、 实验目的 1 、 了解假设检验的基本概念与步骤 2 、 掌握几种重要的参数检验 3 、 掌握若干重要的非参数检验 二、 实验内容 为研究某中心要对抗凝血酶活力的影响, 随机安排新药组病人 12 例,对照组病人 10 例, 分别测定其抗凝血酶活力,其结果如下:

 新药组:

 126 125 136 128 123 138 142 116 110 108 115 140 对照组:

 162 172 177 170 175 152 157 159 160 162 试分析新药组和对照粗病人的抗凝血酶活力有无差别( 0.05 )

 三、 实验原理、方法(算法)、步骤 1. 基本原理:解决一个具体的假设检验问题,一般要借助直观分析和理论分析思想。其 基本原理是实际推断原理:“小概率事件在一次实验中几乎不可能发生”,如果发生,就认为 是不正常的,应该拒绝。

 2. 方法:

 ( 1 )提出原假设 Ho ( 2 )

 确定假设检验统计量 Z ,并在 Ho 成立的条件下,导出 Z 的分布 ( 3 )

 确定拒绝域:由直观分析先确定拒绝的形式,然后由显著水平 a 及 Z 的 分布 P 确定拒绝域的临界值,进而确定拒绝域 C ( 4 )根据具体的一次样本值做出推断 3. 具体算法:

 假设 X 1 ,X 2 , X n1 是来自总体 X ~ N( 1 , 1 2 )

 的样本, Y,Y 2 , Y n2 是来自总体 Y~N( 2 , ; )

 的样本,且两样本独立,其检验问题有:

 双边检验:

 H 。

 :

 1 2 , H 1 : 1 2 单边检验 I H 。

 :

 1 2 , H 1 : 1 2

 单边检验 “ H ° : 1 2 , H 「 1 2

 则认为 H 。

 不成立, 四、实验环境(所用软件、硬件等)及实验数据文件 见实验内容 软件:

 R2.15.3 R 软件。

 五、实验结果及实例分析 > a <- c(126,125,136,128,123,138,142,116,110,108,115,140) > b <- c(162,172,177,170,175,152,157,159,160,162) ###正态性检验:

 > ks.test(a,"p no rm",mea n( a),sd(a)) On e-sample Kolmogorov-Smir nov test data: a D = 0.1464, p-value = 0.9266 alter native hypothesis: two-sided > ks.test(b,"p no rm",mea n( b),sd(b)) On e-sample Kolmogorov-Smir nov test data: b D = 0.2222, p-value = 0.707 alter native hypothesis: two-sided ####方差齐性检验:

 > var.test(a,b)方差 i 2

 2 未知, S 2 和 S ; 分别是 X 和 丫 的样本方差。由统计知识可知,当 H 。

 为真时, T 亠 1 L 其中 闷需

 ~t( n i n 2 2) n 1

 1 ) s :

 (n 2

 1)S ; n 2

 n 1

 n 2

 2 因此,当 T 满足(成为拒绝域):

 t (n i 2 双边检验: n 2 2) 单边检验 I t (m n 2 2) 单边检验 II t ( n i n 2 2) 此方法也称为 t 检验法。

 教师签名 年 月曰

  F test to compare two varia nces data: a and b F = 1.9646, num df = 11, denom df = 9, p-value = 0.32 alter native hypothesis: true ratio of varia nces is not equal to 1 95 perce nt con fide nee in terval: 0.5021943 7.0488630 sample estimates: ratio of varia nces 1.964622 ####可认为 a 和 b 的方差相同。

 ####选用方差相同模型 t 检验:

 > t.test(a,b,var.equal=TRUE) Two Sample t-test data: a and b t = -8.8148, df = 20, p-value = 2.524e-08 alter native hypothesis: true differe nce in means is not equal to 0 95 perce nt con fide nce in terval: -48.24975 -29.78358 sample estimates: mean of x mean of y 125.5833 164.6000 p-value = 2.524e-08<0.05,因而认为两者有显著差别。

 开课学院、实验室:

 数学与统计学院 实验时间 :2013 年 月 日 实验项目 名 称 回归分析 实验项目类型 验证 演示 综合 设计 其他 指导 教师 张应应 成 绩

 一、 实验目的 1. 掌握回归分析的原理以及在 R 软件上的使用 2. 掌握回归诊断在 R 软件上的使用 3. 掌握回归诊断的原理 二、 实验内容 为了估计山上积雪融化后对下游灌溉的影响, 在山上建立一个 观测站,测量最大面积积雪深度 X 与当年 灌溉面积 Y,测得连续 10 年的数据 10 年中最大积雪深度与当年灌溉面积的数据 年序 X/m Y/hm A 2 序号 X/m Y/hmA2 1 5.1 1907 6 7.8 3000 2 3.5 1287 7 4.5 1947 3 7.1 2700 8 5.6 2273 4 6.2 2373 9 8.0 3113 5 8.8 3260 10 6.4 2493 1•试画相应的散点图,判断 Y 与 X 是否有线性关系

 2•求出 Y 关于 X 的一元线性回归方程; 3. 对方程做显著性分析; 4• 先测得今年的数据是 X=7m ,给出今年灌溉面积的预测值和相应的区间估计( a =0.05 )

 三、 实验原理、方法(算法)、步骤 回归分析研究的主要问题是:

 1. 确定 丫 与 X1 , X2....Xp 间的定量关系表达式,即回归方程 2. 对求得的回归方程的可信度进行检验 3. 判断自变量 Xj(j=1,2,...p)

 对 丫 有无影响 4. 利用所求的的回归方程进行预测和控制,在比较严密的分析中,一般不轻易剔除变量, 而是对显著差异变量进行分析。

 四、 实验环境(所用软件、硬件等)及实验数据文件 软件:

 R 2.15.3 数据见实验内容 五、实验结果及实例分析

 教师签名 年 月曰

  ####输入数据并运行得:

 x<-c(5.1,3.5,7.1,6.2,8.8,7.8,4.5,5.6,8.0,6.4) y<-c(1907,1287,2700,2373,3260,3000,1947,2273,3113,2493) plot(x,y)

  分析结果:由散点图可得 x,y 线性相关 lm.sol<-lm(y~1+x) summary(lm.sol) Call: lm(formula = y ~ 1 + x) Residuals: Min 1Q Media n 3Q Max -128.591 -70.978 -3.727 49.263 167.228 Coefficie nts: Estimate Std. Error t value Pr(>|t|) (In tercept) 140.95 125.11 1.127 0.293

  x 364.18 19.26 18.908 6.33e-08 ***

  Sign if. codes: 0 ‘ *** "0.00** "0.01 "* " 0.05 "."0.1 ‘ "1

 Residual sta ndard error: 96.42 on 8 degrees of freedom Multiple R-squared: 0.9781, Adjusted R-squared: 0.9754 F-statistic: 357.5 on 1 and 8 DF, p-value: 6.33e-08 分析结果:由上述结果可得 y 关于 x 的一元线性回归方程为 y=140.95+364.18x ; 并由 F 检验和 t 检验,可得回归方程通过了回归方程的显著性检验 ####对数据进行预测,并且给相应的区间估计 n ew<-data.frame(x=7) lm.pred<-predict(lm.sol, new,i nterval="predictio n",level=0.95) lm.pred fit lwr upr 1 2690.227 2454.971 2925.484 分析结果:预测值为 2690.227,估计区间为[2454.971 ,2925.484]

 开课学院、实验室:数学与统计 实验时间 :2013 年 04 月 20 日 实验项目 判别分析 实验项目类型 名 称 验证 演示 综合 设计 其他 指导 教师 张应应 成 绩

  一、 实验目的 1. 在已知样本有多少类的情况下对样本进行分类; 2• 熟悉 R 软件的各种操作; 3. 利用 R 软件进行各种方式的判别分析。

 二、 实验内容 根据经验 今天与昨天的温度差 X1 及今天的压温差(气压与温度之差) X2 是预报明天下雨 或不下雨的两个重要因素。现有一批已收集的数据资料,如表所示,金测得 x1=8.1 , x2=2.0 试问预报明天下雨还是预报明天不下雨?分别用距离判别、 Bayes 判别、(考虑方差相同与方 差不同两种情况)和 Fisher 判别来得到你所需要的结论 表 8.7. 三、 实验原理、方法(算法)、步骤 距离判别法:

 W ( x )

 ( X X ⑵) T

 2 ( x x( 2 ) ) (x

 X ⑴ ) T

 Bayes 判别法:. 1 T 1 T 1 W(x) -(x 2 ) T

 2

 (x 2 ) (x J T

 1

 (x 2 2 1

 Fisher 判别法:

 W(x) d T S 1 (x x) 四、 实验环境(所用软件、硬件等)及实验数据文件 实验数据见实验内容 软件:

 R2.15.1 五、 实验结果及实例分析:

 ## 距离判别 classX1=data.frame( x1=c(-1.9,-6.9,5.2,5.0,7.3,6.8,0.9,-12.5,1.5,3.8), x2=c(3.2,10.4,2.0,2.5,0.0,12.7,-15.4,-2.5,1.3,6.8) ) classX2=data.frame( x1=c(0.2,-0.1,0.4,2.7,2.1,-4.6,-1.7,-2.6,2.6,-2.8). 具体数据见统计建模与 R 软件 P420 1

 (1) 2 ( X X ) ,判断其值是否大于 0. J ,判断值与 的关系;

 x2=c(0.2,7.5,14.6,8.3,0.8,4.3,10.9,13.1,12.8,10.0) ) TstX=data.frame( x1=c(8.1), x2=c(2.0) ) ## 对训练样本的回代情况 ## var.equal=T :有 4 个错判,错判率为 4/20=0.2 ## var.equal=F: 有 5 个错判,错判率为 5/20=0.25 source("discrimi nian t.dista nce.R") discrimi nian t.dista nce(classX1,classX2,var.equal=T) discrimi nian t.dista nce(classX1,classX2,var.equal=F) ## 对测试样本进行判别:均判为第 1 组 discrimi nian t.dista nce(classX1,classX2,TstX,var.equal=T) discrimi nian t.dista nce(classX1,classX2,TstX,var.equal=F) ## Bayes ## TrnX1, TrnX2 以矩阵的形式输入 TrnX1=matrix( c(-1.9,-6.9,5.2,5.0,7.3,6.8,0.9,-12.5,1.5,3.8, 3.2,10.4,2.0,2.5,0.0,12.7,-15.4,-2.5,1.3,6.8), n col=2) Trn X2=matrix( c(0.2,-0.1,0.4,2.7,2.1,-4.6,-1.7,-2.6,2.6,-2.8, 0.2,7.5,14.6,8.3,0.8,4.3,10.9,13.1,12.8,10.0), n col=2) TstX=data.frame( x1=c(8.1), x2=c(2.0)

 教师签名 年 月曰

  ## 对训练样本的回代情况 ## var.equal=T :有 4 个错判,错判率为 4/20=0.2 ## var.equal=F: 有 5 个错判,错判率为 5/20=0.25 source("discrim inian t.bayes.R") discrimi nian t.bayes(TrnX1,TrnX2,rate=1,var.equal=T) discrimi nian t.bayes(TrnX1,TrnX2,rate=1,var.equal=F) ## 对测试样本进行判别:均判为第 1 组 discrimi nia nt.bayes(TrnX1,TrnX2,rate=1,TstX,var.equal=T) discrimi nia nt.bayes(TrnX1,TrnX2,rate=1,TstX,var.equal=F) discrimi nia nt.bayes(classX1,classX2,rate=1,TstX,var.equal=T) discrimi nian t.bayes(classX1,classX2,rate=1,TstX,var.equal=F) ## Fisher ## 对训练样本的回代情况 ## 有 4 个错判,错判率为 4/20=0.2 source("discrimi nia nt.fisher.R") discrimi nian t.fisher(classX1,classX2) ## 对测试样本进行判别:判为第 1 组 discrimi nian t.fisher(classX1,classX2,TstX) ## 三种方法均预报明天下雨 colMea ns(classX1) colMea ns(classX2) x1 x2 -0.38 8.25

 开课学院、实验室:

 数学与统计学院 实验时间 :2013 年 4 月 日 实验项目 主成分分析 实验项目类型 名 称 验证 演示 综合 设计 其他 指导 教师 张应应 成 绩

  一、 实验目的 1. 掌握利用主成分分析的理论思想,将多指标化为少数几个综合的指标; 2. 熟练应用 R 软件来进行主成分分析; 3. 利用主成分分析的结果对具体问题作出合理的解释分析。

 二、 实验内容 用主成分法探讨城市工业主体,表格里是某市工业部门 13 个行业,分别是冶金,电力,煤 炭,化学,机械,建材,食品,森工,纺织,缝纫,皮革,造纸,文教艺术品, 8 个指标, 分别是年末固定资产净值 X1 ,职工人数 X2 ,工业总产值 X3 ,全员劳动生产率 X4 ,百元固 定原值实现产值 X5 ,资金利税率 X6 ,标准燃料消费量 X7, 和能源利用开发效果 X8. 的数据。

 见统计建模与 R 软件 P475 表 9.7 (1) 利用主成分分析方法分析确定 8 个指标的几个主成分,并对主成分进行解释; (2) 利用主成分得分对 13 个行业内进行排序和分类。

 三、 实验原理、方法(算法)、步骤 基本原理:

 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关 性的指标 X1 , X2, …, XP (比如 p 个指标),重新组合成一组较少个数的互不相关的综合指 标 Fm 来代替原来指标。

 计算步骤:

 (1) 计算协方差矩阵; (2) 求出工的特征值 i 入及相应的正交化单位特征向量; (3) 选择主成分; (4) 选择主成分; (5) 选择主成分 . 四、 实验环境(所用软件、硬件等)及实验数据文件 数据见实验内容 R 2.15.3

 五、 实验结果及实例分析

 (1)利用主成分确定了 8 个指标的主成分,有 4 个,即主成分碎石图所示 > in dustry<-data.frame( +X1=c(90342,4903,6735,49454,139190,12215,2372,11062,17111,1206,2150,5251,14341), +X2=c(52455,1973,21139,36241,203505,16219,6572,23078,23907,3930,5704,6155,13203), +X3=c(101091,2035,3767,81557,215898,10351,8103,54935,52108,6126,6200,10383,19396), +X4=c(19272,10313,1780,22504,10609,6382,12329,23804,21796,15586,10870,16875,14691), + X5=c(82.0,34.2,36.1,98.1,93.2,62.5,184.4,370.4,221.5,330.4,184.2,146.4,94.6), + X6=c(16.1,7.1,8.2,25.9,12.6,8.7,22.2,41.0,21.5,29.5,12.0,27.5,17.8), +X7=c(197435,592077,726396,348226,139572,145818,20921,65486,63806,1840,8913,78796,6354), +X8=c(0.172,0.003,0.003,0.985,0.628,0.066,0.152,0.263,0.276,0.437,0.274,0.151,1.574)) > in dustry.pr<-pri ncomp(i ndustry,cor=T) > summary(industry.pr) ####做主成分分析,得到 4 个主成分,累积贡献率达 94.68% Importa nee of comp onen ts: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Stan dard deviation 1.7620762 1.7021873 0.9644768 0.80132532 0.55143824 Proportion of Variance 0.3881141 0.3621802 0.1162769 0.08026528 0.03801052 Cumulative Proportion 0.3881141 0.7502943 0.8665712 0.94683649 0.98484701 Comp.6 Comp.7 Comp.8 Stan dard deviation 0.29427497 0.179400062 0.0494143207 Proportion of Variance 0.01082472 0.004023048 0.0003052219 Cumulative Proportion 0.99567173 0.999694778 1.0000000000 > load<-loadi ngs(i ndustry.pr) #### 求出载荷矩阵 > load Loadi ngs: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8

 X1 -0.477 -0.296 -0.104 0.184 0.758 0.245 X2 -0.473 -0.278 -0.163 -0.174 -0.305 -0.518 0.527 X3 -0.424 -0.378 -0.156 -0.174 -0.781 X4 0.213 -0.451 0.516 0.539 0.288 -0.249 0.220 X5 0.388 -0.331 -0.321 -0.199 -0.450 0.582 0.233 X6 0.352 -0.403 -0.145 0.279 -0.317 -0.714 X7 -0.215 0.377 -0.140 0.758 -0.418 0.194 X8 -0.273 0.891 -0.322 0.122 SS loadi ngs 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 Proporti on Var 0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125 Cumulative Var 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000

 > plot(load[,1:2]) > text(load[,1],load[,2],adj=c(-0.4,-0.3)) > screeplot(i ndustry.pr, npcs=4,type="li nes") #### 得出主成分的碎石图 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8

  LB -0.1 -0.2 0.U 0.2 0.4 Comp 1 > p<-predict(industry.pr) ####预测数据,讲预测值放入 p 中 > order(p[,1]);order(p[,2]);order(p[,3]);order(p[,4]); ####将预测值分别以第一,第二,第三,第四主成分进行排序 [1] 5 1 3 2 4 6 13 11 9 7 12 10 8 [1] 5 8 4 910 1 13 12 7 11 6 2 3 [1] 8 1 5 3 9 12 7 10 2 6 11 4 13 [1] 11 6 5 7 10 13 12 9 1 8 3 2 4 > kmeans(scale(p),4)

 ####将预测值进行标准化,并分为 4 类 Industry ,pr > biplot(i ndustry.pr) ####得出在第一,第二主成分之下的散点图 賈 * 2 S 口O O Comp 1 Comp .3 Gornp.G Comp 7 9 1 /.I g

 教师签名 年 月曰

  K-means clustering with 4 clusters of sizes 5, 1,4, 3 Cluster means: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1 0.5132590 -0.03438438 -0.3405983 -0.5130031 0.2355151 0.22441040 2 -2.5699693 -1.32913757 -0.4848689 -0.9460127 -0.9000187 -0.06497950 3 0.2381581 0.72871986 -0.2995918 0.3126036 -0.4744091 -0.19709710 4 -0.3163193 -0.47127333 1.1287426 0.7535380 0.5400265 -0.08956137 Comp.7 Comp.8 1 -0.38197798 -0.7474855 2 -0.67500209 0.4569548 3 0.09063069 0.9826915 4 0.74078975 -0.2167643 Clusteri ng vector: [1] 4 3 3 4 2 1 1 1 1 3 1 3 4 With in cluster sum of squares by cluster: [1] 19.41137 0.00000 24.49504 16.61172 (between_SS / total_SS = 37.0 %)

 Available comp onen ts: [1] "cluster" "cen ters" "totss" "withi nss" "tot.withi nss" ⑹ "betwee nss" "size" #######用 order ()分别对 4 个主成分的预测值进行排序,结果是如下表( 26),而利用 kmeans ()进行动态排序得到如下分类:

 第 1 类:建材(6),森工(7),食品(8),纺织(9),皮革(11); 第 2 类:机械(5); 第 3 类:电力(2),煤炭(3),缝纫(10)造纸(12); 第 4 类:冶金(1)化学(4),文教艺术用品(13 )。

 成分 13 个行业排序结果 第一主成分:: 5 1 3 2 4 6 13 11 9 7 12 10 8 第二主成分:

 5 8 4 9 10 1 13 12 7 11 6 2 3 第三主成分:

 8 1 5 3 9 12 7 10 2 6 11 4 13 第四主成分:

 11 6 5 7 10 13 12 9 1 8 3 2 4 表(26)各行业按主成分得分进行排序结果