秦皇岛大学

发布时间：2023-06-07 作者：admin 来源：文学

秦皇岛大学

2023年2月18日发(作者：)

2022年东北大学秦皇岛分校数据科学与大数据技术专业《计算机系统

结构》科目期末试卷A(有答案）

一、选择题

1、外部设备打印机适合于连接到()。

A.数组多路通道

B.字节多路通道

C.选择通道

D.任意一种通道

2、从计算机系统结构上讲，机器语言程序员所看到的机器属性是()。

A.计算机软件所要完成的功能

B.计算机硬件的全部组成

C.编程要用到的硬件组织

D.计算机各部件的硬件实现

3、计算机系统结构不包括()。

A.主存速度

B.机器工作状态

C.信息保护

D.数据

4、系列机软件应做到()。

A.向前兼容，并向上兼容

B.向后兼容，力争向上兼容

C.向前兼容，并向下兼容

D.向后兼容，力争向下兼容

5、在尾数下溢处理方法中，平均误差最大的是（）

A.截断法

B.舍入法

C.恒置\"1\"法

查表法

6、与全相联映象相比，组相联映象的优点是()

A.目录表小

B.块冲突概率低

C.命中率高

D.主存利用率高

7、输入输出系统硬件的功能对（）是透明的。

A.操作系统程序员

B.应用程序员

C.系统结构设计人员

D.机器语言程序设计员

8、在计算机系统设计中，比较好的方法是()

A.从上向下设计

B.从下向上设计

C.从两头向中间设计

D.从中间开始向上、向下设计

9、下列关于虚拟存贮器的说法，比较正确的应当是()

A.访主存命中率随页面大小增大而提高

B.访主存命中率随主存容量增加而提高

C.更换替换算法能提高命中率

D.在主存命中率低时，改用堆栈型替换算法，并增大主存容量，可提高命中率

10、汇编语言程序经（）的（）成机器语言程序。

A.编译程序，翻译

B.汇编程序，翻译

C.汇编程序，解释

D.编译程序，解释

二、填空题

11、软件和硬件成本由________和________组成。

12、Cache存贮器写操作时，只写入Cache，仅当需要块替换时，才将其写回主存。称

这种修改主存块内容的方法为________法。

13、一种机器的系统结构上实现另一种机器的指令系统，一般可采用________方法或

________方法。

14、层次存储系统的设计的目的是使有效存取时间接近于________的存取时间，使总体的

平均每字成本接近于________的每字成本，容量接近于最大存储器的容量。

15、衡量向量处理机性能的主要参数是________和________

16、在一般标量流水线处理机中，通常把一条指令的执行过程分解为取指令、________和

________、写回结果4级流水线，每一级的执行时间为个基本时钟周期。

17、虚拟存贮器按映象算法不同，存贮管理方式有段式、________和________式3种。

18、直接网络可分为3类：________和________、超立方体网络。

19、在理想情况下，超标量超流水线处理机执行程序的速度是________和________的乘积。

20、交叉访问存储器通常有两种交叉编址方式：________和________

三、判断题

21、超标量功能流水线能完成执行多种指令的功能。（）

22、在一种机器的系统结构上实现另一种机器的指令系统，采用模拟方法比采用仿真方法

更快捷。（）

23、与重叠机器一样，流水机器在遇到转移指令，尤其是条件转移指令时，效率也会显著

下降。（）

24、OPT是STACK型替换算法。（）

25、要实现两条指令在时间上重叠解释，首先需要付出空间代价，其次，要处理好指令之

间可能存在的关联。（）

26、只要将子过程进一步细分，就可以使流水线吞吐率进一步提高。（）

27、能做为评价其它置换算法标准的置换算法是RAND。（）

28、软硬功能分配时，提高软件功能的比例会提高系统灵活性，也会提高解题速度。（）

29、延迟转移技术是RISC关键技术之一。（）

30、指令间的读写相关是全局相关。（）

31、单功能流水线只能完成一种固定功能。（）

32、Cache存贮器等效访问速度达不到接近于第一级Cache的，可以增加Cache容量来

解决。（）

33、经常用的基本单元功能，宜于用软件实现，以降低实现费用。（）

34、对标量数据来说，并行主存系统的实际频宽采用多体单字方式的要比采用单体单字方

式组成的高。（）

35、流水机器处理中断应着眼于解决断点现场如何保存和恢复，并不在于如何缩短断流的

时间，去追求流水的高吞吐率和高效率。（）

四、名词解释

36、细粒度多线程技术：

37、动态互连网络：

38、失效开销：

39、处理机间流水线：

40、乱序流水线：

41、指令级并行：

五、简答题

42、在标准的栅栏同步中，设单个处理器的通过时间（包括更新计数和释放锁）为C，

求N个处理器一起进行一次同步所需要的时间。

43、试用实例说明计算机系统结构、计算机组成与计算机实现之间的相互关系。

44、通过编译器对程序优化来改进Cache性能的方法有哪几种？简述其基本思想。

45、指令的执行可采用顺序执行、重叠执行和流水线三种方式，它们的主要区别是什么？

各有何优缺点。

46、地址映象方法有哪几种？它们各有什么优缺点？

六综合题

47、某向量处理机有16个向量寄存器，其中V0~V5中分别放有向量A、B、C、D、E、

F，向量长度均为8，向量各元素均为浮点数；处理部件采用两条单功能流水线，加法功

能部件时间为2拍，乘法功能部件时间为3拍。采用类似于CARY-1的链接技术，先计

算（A+B）*C，在流水线不停流的情况下，接着计算（D+E）*F。

（1）求此链接流水线的通过时间？（设寄存器入、出各需1拍）

（2）假如每拍时间为50ns，完成这些计算并把结果存进相应寄存器，此处理部件的实际

吞吐率为多少MFLOPS？

48、假设在一个计算机系统中：

（1）每页为32KB，Cache块大小为128字节；

（2）对应新页的地址不在Cache中，CPU不访问新页中的任何数据；

（3）Cache中95%的被替换块将再次被读取，并引起一次失效；

（4）Cache使用写回方法，平均60%的块被修改过；

（5）I/O系统缓冲能够存储一个完整的Cache块；

（6）访问或失效在所有Cache块中均匀分布；

（7）在CPU和I/O之间，没有其它访问Cache的干扰；

（8）无I/O时，每100万个时钟周期内有18000次失效；

（9）失效开销是40个时钟周期。如果被替换的块被修改过，则再加上30个周期用于写

回主存；

（10）假设计算机平均每200万个周期处理一页。

试分析I/O对于性能的影响有多大？

49、对于两路超标量处理器，从存储器取数据有两拍附加延迟，其它操作均有1拍附加延

迟，对于下列代码，请按要求进行指令调度。

LWR4,(R5)

LWR7,(R8)

DADDR9,R4,R7

LDR10,(R11)

DMULR12,R13,R14

DSUBR2,R3,R1

SWR15,(R2)

DMULR21,R4,R7

SWR23,(R22)

SWR21,(R24)

（1）假设两路功能部件中同时最多只有一路可以是访问存储器的操作，同时也最多只有

一路可以是运算操作，指令顺序不变。

（2）假设两路功能部件均可以执行任何操作，指令顺序不变。

（3）假设指令窗口足够大，指令可以乱序（out-of-order）流出，两路功能部件均可以

执行任何操作。

50、假设一台计算机具有以下特性：

（1）95％的访存在Cache中命中；

（2）块大小为两个字，且失效时整个块被调入；

（3）CPU发出访存请求的速率为109字/s；

（4）25％的访存为写访问；

（5）存储器的最大流量为109字/s（包括读和写）；

（6）主存每次只能读或写一个字；

（7）在任何时候，Cache中有30％的块被修改过；

（8）写失效时，Cache采用按写分配法。

现欲给该计算机增添一台外设，为此首先想知道主存的频带已用了多少。试对于以下

两种情况计算主存频带的平均使用比例。

（1）写直达Cache；

（2）写回法Cache。

参考答案

一、选择题

1、【答案】B

2、【答案】C

3、【答案】A

4、【答案】B

5、【答案】A

6、【答案】A

7、【答案】B

8、【答案】D

9、【答案】D

10、【答案】B

二、填空题

11、【答案】一次性开发成本每个部件的生产成本

12、【答案】写回

13、【答案】仿真，模拟

14、【答案】最内层存储器最外层存储器

15、【答案】向量指令的处理时间向量长度为无穷量处理机的最大性能

16、【答案】译码执行

17、【答案】页式段页

18、【答案】网格网络环形网络

19、【答案】超标量处理机超流水线处理机执行程序速度

20、【答案】地址码的高位交叉编址地址码的低位交叉编址

三、判断题

21、【答案】对

22、【答案】错

23、【答案】对

24、【答案】对

25、【答案】对

26、【答案】错

27、【答案】对

28、【答案】错

29、【答案】对

30、【答案】错

31、【答案】对

32、【答案】对

33、【答案】错

34、【答案】对

35、【答案】错

四、名词解释

36、答：细粒度多线程技术是一种实现多线程的技术。它在每条指令之间都能进行线程的

切换，从而使得多个线程可以交替执行。通常以时间片轮转的方法实现这样的交替执行，

在轮转的过程中跳过处于停顿的线程。

37、答：由交换开关构成、可按运行程序的要求动态地改变连接状态的网络。

38、答：CPU向二级存储器发出访问请求到把这个数据调入一级存储器所需的时间。

39、答：又称为宏流水线。它是把多个处理机串行连接起来，对同一数据流进行处理，每

个处理机完成整个任务中的一部分。前一个处理机的输出结果存入存储器中，作为后一个

处理机的输入。

40、答：流水线输出端任务流出的顺序与输入端任务流入的顺序可以不同，允许后进入流

水线的任务先完成。这种流水线又称为无序流水线、错序流水线、异步流水线。

41、答：简称ILP。是指指令之间存在的一种并行性，利用它，计算机可以并行执行两条

或两条以上的指令。

五、简答题

42、答：

我们忽略读写锁的时间。N个处理器中的每一个都需要C个时钟周期来锁住与栅栏相关的

计数器，修改它的值，然后释放锁。考虑最坏情况，所有N个处理器都要对计数器加锁

并修改它的值，由于锁只能顺序访问计数器，在同一时间，只能有一个处理器修改计数器

的数据。所以，总共要花NC个时钟周期使得所有的处理器都到达数据栅栏。

43、答：如在设计主存系统时，确定主存容量、编址方式、寻址范围等属于计算机系统结

构。确定主存周期、逻辑上是否采用并行主存、逻辑设计等属于计算机组成。选择存储芯

片类型、微组装技术、线路设计等属于计算机实现。

计算机组成是计算机系统结构的逻辑实现。计算机实现是计算机组成的物理实现。一种体

系结构可以有多种组成。一种组成可以有多种实现。

44、答：（1）数组合并。通过提高空间局部性来减少失效次数。有些程序同时用相同的

索引来访问若干个数组的同一维，这些访问可能会相互干扰，导致冲突失效，可以将这些

相互独立的数组合并成一个复合数组，使得一个Cache块中能包含全部所需元素。

（2）内外循环交换。循环嵌套时，程序没有按数据在存储器中的顺序访问。只要简单地

交换内外循环，就能使程序按数据在存储器中的存储顺序进行访问。

（3）循环融合。有些程序含有几部分独立的程序段，它们用相同的循环访问同样的数组，

对相同的数据作不同的运算。通过将它们融合成一个单一循环，能使读入Cache的数据

被替换出去之前得到反复的使用。

（4）分块。通过改进时间局部性来减少失效。分块不是对数组的整行或整列进行访问，

而是对子矩阵或块进行操作。

45、答：

（1）指令的顺序执行是指指令与指令之间顺序串行。即上一条指令全部执行完后，才能

开始执行下一条指令。

优点：控制简单，节省设备。缺点：执行指令的速度慢，功能部件的利用率低。

（2）指令的重叠指令是在相邻的指令之间，让第k条指令与取第k+l条指令同时进行。

重叠执行不能加快单条指令的执行速度，但在硬件增加不多的情况下，可以加快相邻两条

指令以及整段程序的执行速度。与顺序方式相比，功能部件的利用率提高了，控制变复杂

了。

（3）指令的流水执行是把一个指令的执行过程分解为若干个子过程，每个子过程由专门

的功能部件来实现。把多个处理过程在时间上错开，依次通过各功能段，每个子过程与其

它的子过程并行进行。依靠提高吞吐率来提高系统性能。流水线中各段的时间应尽可能相

等

46、答：

(1)全相联映象。实现查找的机制复杂，代价高，速度慢。Cache空间的利用率较高，块

冲突概率较低，因而Cache的失效率也低。

（2）直接映象。实现查找的机制简单，速度快。Cache空间的利用率较低，块冲突概率

较高，因而Cache的失效率也高。

（3）组相联映象。组相联是直接映象和全相联的一种折衷。

六综合题

47、解：（1）我们在这里假设A＋B的中间结果放在V6中，（A＋B）×C地最后结果

放在V7中，D＋E地中间结果放在V8中，（D＋E）×F的最后结果放在V9中。具体实

现参考下图：

V0AV1B

V3DV4EV5F

V6V7V2C

V9V8

向量加向量乘

通过时间应该为前者（（A＋B）×C）通过的时间：

T通过=(1+2+1)+(1+3+1)=9（拍）

（2）在做完（A＋B）×C之后，作（C＋D）×E就不需要通过时间了。

V6←A＋B

V7←V6×C

V8←D＋E

V9←V8×F

48、解：每个主存页有32K/128＝256块。

因为是按块传输，所以I/O传输本身并不引起Cache失效。但是它可能要替换Cache中

的有效块。如果这些被替换块中有60％是被修改过的，将需要（256×60％）×30＝

4608个时钟周期将这些被修改过的块写回主存。

S26.67MFLOP

1200(ns)24818TT



（拍））－＋（通过

这些被替换出去的块中，有95％的后继需要访问，从而产生95％×256＝244次失效，

将再次发生替换。由于这次被替换的244块中数据是从I/O直接写入Cache的，因此所

有块都为被修改块，需要写回主存（因为CPU不会直接访问从I/O来的新页中的数据，

所以它们不会立即从主存中调入Cache），需要时间是244×（40＋30）＝17080个时

钟周期。

没有I/O时，每一页平均使用200万个时钟周期，Cache失效36000次，其中60％被

修改过，所需的处理时间为：

（36000×40％）×40＋（36000×60％）×（40＋30）＝2088000（时钟周期）

时钟I/O造成的额外性能损失比例为

（4608＋17080）÷（2000000＋2088000）＝0.53％

即大约产生0.53％的性能损失。

49、解：（1）

第一路第二路

LWR4,(R5)

LWR7,(R8)

DADDR9,R4,R7LDR10,(R11)

DMULR12,R13,R14

DSUBR2,R3,R1SWR15,(R2)

DMULR21,R4,R7SWR23,(R22)

SWR21,(R24)

（2）

第一路第二路

LWR4,(R5)LWR7,(R8)

DADDR9,R4,R7LDR10,(R11)

DMULR12,R13,R14DSUBR2,R3,R1

SWR15,(R2)DMULR21,R4,R7

SWR23,(R22)

SWR21,(R24)

（3）

第一路第二路

LWR4,(R5)LWR7,(R8)

DSUBR2,R3,R1LDR10,(R11)

SWR23,(R22)DMULR12,R13,R14

DADDR9,R4,R7DMULR21,R4,R7

SWR15,(R2)

SWR21,(R24)

50、解：采用按写分配

（1）写直达cache访问命中，有两种情况：

读命中，不访问主存；

写命中，更新cache和主存，访问主存一次。

访问失效，有两种情况：

读失效，将主存中的块调入cache中，访问主存两次；

写失效，将要写的块调入cache，访问主存两次，再将修改的数据写入

cache和主存，访问主存一次，共三次。上述分析如下表所示。

访问命中访问类型频率访存次数

读

95%*75%=71.3%0

写

95%*25%=23.8%1

读

5%*75%=3.8%2

写

5%*25%=1.3%3

一次访存请求最后真正的平均访存次数=(71.3%*0)+(23.8%*1)+(3.8%*2)+(1.3%*3)＝

0.35

已用带宽=0.35×109/109=35.0%

（2）写回法cache访问命中,有两种情况：

读命中，不访问主存；

写命中，不访问主存。采用写回法，只有当修改的cache块被换出时，才

写入主存；

访问失效,有一个块将被换出，这也有两种情况：

如果被替换的块没有修改过，将主存中的块调入cache块中，访问主存两次；

如果被替换的块修改过，则首先将修改的块写入主存，需要访问主存两次；然后

将主存中的块调入cache块中，需要访问主存两次，共四次访问主存。

访问命中块为脏频率访存次数

YN95%*70%=66.5%0

YY95%*30%=28.5%0

NN5%*70%=3.5%2

NY5%*30%=1.5%4

所以：

一次访存请求最后真正的平均访存次数=66.5％*0＋28.5%*0+3.5%*2+1.5%*4=0.13

已用带宽＝0.13×109/109＝13%

👁️ 阅读量：0

🔖 本文标签：

🔥 最新发布文章