阿里 ECS 是一台机器构成的还是多台机器构成的?
请问是 1 还是 2 ?
如果不是 2 ,那么现在的技术世界里 存不存在 2 这种实现?
1
ThirdFlame 2021-12-21 15:00:47 +08:00
显然是 1
2 的话成本有点高 而且开销有点大 |
2
julyclyde 2021-12-21 15:02:28 +08:00
古代有个 mosix 可以把多个机器合并为一个
不过后来这东西没继续发展了 现在的 ecs 应该都是小于等于一台物理机的 |
3
wy315700 2021-12-21 15:04:29 +08:00
内存和 CPU 应该是一起的,硬盘分本地硬盘和云硬盘
|
4
PopRain 2021-12-21 15:10:48 +08:00 1
你在开玩笑吗? 内存、CPU 不在一台计算机上? 硬盘可能是网络的,但是一般也是在同一个机房,不太可能异地,异地也只是备份而已。
|
5
andyskaura 2021-12-21 15:17:45 +08:00 1
太看得起网络带宽了吧
|
6
seasona 2021-12-21 15:23:20 +08:00
1 ,ecs 其实就是 QEMU/KVM 开出的一台虚拟机,CPU 和内存都是一台本地服务器的,硬盘基本都是网络盘
|
7
swulling 2021-12-21 15:31:25 +08:00
CPU 和内存是一台宿主机上的,硬盘通常挂载同一个可用区的云盘。
这是因为网络带宽和时延,也就刚刚追上硬盘,离内存还远(受到物理规律限制可能永远追不上) |
8
stoneabc 2021-12-21 15:35:19 +08:00
@PopRain 不过最新的各种内存、gpu pooling 的研究,过个几年真有可能 cpu 、内存、gpu 等设备都不在一台物理机上了…
|
9
t6attack 2021-12-21 15:35:26 +08:00
研究过 GPU 编程的朋友,可能会发现一个问题:当运算数据量很小的时候,速度提升并不明显,甚至比 CPU 计算更慢。原因是 GPU 带来的速度提升,被“向 GPU 传递数据所消耗的时间”所抵消。
你看,半个主板的距离,速度损耗都让人无法接受。你这直接给拉开两个城市了。 |
10
Alexonx 2021-12-21 15:37:56 +08:00 via Android 2
2 的实现的话,目前受限于网络带宽,很少有大规模的应用。OSDI '18 有篇论文挺类似的,这个论文描述的系统架构把硬件分成了处理器、内存和存储三种,中间通过网络进行通信,但是其中操作系统要付出大量的代价来保证一致性和容错。
PDF:https://www.usenix.org/system/files/osdi18-shan.pdf |
11
2i2Re2PLMaDnghL 2021-12-21 15:59:42 +08:00
@stoneabc 但做法也不太可能是表现为一台机器(一个操作系统),而是表现为一个任务分发器(一个编排系统)
|
12
justs0o 2021-12-21 16:06:32 +08:00
第二种除非有突破光速的东西出来,否则永远不可能
|
13
kenshin912 2021-12-21 16:07:43 +08:00
显然是 1
内存和 CPU 必然在一台宿主机上 , 不然那延迟...... 硬盘也应该在同一个机房内. |
14
lopssh OP |
15
felixcode 2021-12-21 16:20:29 +08:00
带宽可能可以通过技术革新来解决,但延时是受物理规律限制的。
CPU 和内存间有几到几十毫秒,再融合也不行,超融合也不行,再多的超字也不行。 |
16
FantaMole 2021-12-21 16:23:10 +08:00
超融合老是让我出戏到打牌
|
17
westoy 2021-12-21 16:30:09 +08:00
红帽的超融合是基于软件方案的定义, 又不是你说的那种六神合体......
|
18
loading 2021-12-21 16:31:24 +08:00
@lopssh #14 你知道现在的超融合是怎么回事吗?约等于坑人。
你说的那种是集群,超过一台计算机能力的才需要把一个实例分布到多台物理机,你说的可能是指超级计算机。你自己查一下,阿里的 ECS 哪一个配置超过现在一台普通的服务器的配置了? |
19
echo1937 2021-12-21 16:32:32 +08:00
|
20
freelancher 2021-12-21 16:33:35 +08:00
@lopssh 无语了都。超融合能突破物理极限吗?
超融合的本质是分布式存储 + 虚拟化融合部署,核心是分布式存储。 存储放另一个地区都会造成巨大的网络延迟。 没事就多看看计算机的书!我潜水的都被炸出来了! |
21
stoneabc 2021-12-21 16:34:06 +08:00
@felixcode 先不说能不能实现。。现在云厂商普通 vpc 内网的延时也就个位数 ms 。。上 Roce 之类东西的话能到个位数 us 级别
|
22
mikuazusa 2021-12-21 16:36:54 +08:00
只能是 1 ,2 的情况目前的超融合也达不到。
想了解超融合的,看一下什么是超融合一体机就知道了。 |
23
felixcode 2021-12-21 16:41:22 +08:00
|
24
freelancher 2021-12-21 16:41:36 +08:00 2
令人震惊的计算机文盲。不多说了。看完帖子我能气晕。
|
26
felixcode 2021-12-21 16:51:37 +08:00
|
27
Chase2E 2021-12-21 16:57:05 +08:00
<=一台物理机器,云计算的本质就是利用冗余资源嘛
|
28
b1u2g3 2021-12-21 17:05:15 +08:00
无知,半知半解 =》无畏
|
29
interim 2021-12-21 17:08:19 +08:00 1
一时无力吐槽,这竟然是个开发问出的问题,建议重修计算机。
|
30
msg7086 2021-12-21 17:11:59 +08:00 via Android
超融合我记得只有存储是共享的吧,而且也是走 IB 之类互联的。
这些技术的难点都在于突破光(电)速。 CPU 和内存之间十几厘米的距离到顶了,拉到隔壁桌子都不行,你还跨省。这么远的距离,4GHz 的 CPU 瞬间被拉成 4KHz 。 |
31
markgor 2021-12-21 17:13:38 +08:00
所谓的超融合其实就是现在云厂推的无服务器应用...单纯跑一个应用的。
只涉及到存储 /计算 /带宽 能力。 和虚拟机完全不是一个级别的。 另外阿里 ecs 也不是一台物理机器; 存储->建立存储池,末端是多台物理机器; CPU/内存->集群中建立的虚拟机; 比方 A 集群中由 3 台物理机组成,虚拟机的配置运行仅仅会在其中一台节点中生效。 当发现这个节点异常时,集群会把配置文件移动到另一个节点中。由于数据的存储是存储池中的,所以这个移动其实仅仅是配置。 如果你有租用超过 3 年的云主机,你细心查看会发现有过自动重启的日志(可能看运气吧,但我其中一台试过),提交工单后答复由于宿主机异常,导致了转移,所以引起云服务器重启.... 内存带宽大概是 4200MT/s ,网络带宽需要达到怎样的条件才能这样异地组机呢,而且还没考虑稳定性... 这有点过渡设计了.... |
32
eason1874 2021-12-21 17:22:41 +08:00
硬盘可以通过网络连接,大部分场景能满足,需要高 I/O 的除外
CPU 和内存通过网络连接不可行,损耗极其大,说可行的要么不懂,要么骗子 这题目让我想起好多人以为超算就是堆 CPU 堆内存。。。 |
34
ch2 2021-12-21 17:55:05 +08:00
你用过就知道,哪台机器性能指标啥样都得提前文档里写好的,同一个大区不同小区之间高几毫秒延迟都得说的清清楚楚,不在一台机器上的都能猜得到
|
35
xingHI 2021-12-21 18:15:14 +08:00
香港轻量最低配什么价格
|
36
PMR 2021-12-21 18:22:45 +08:00 via Android
内存延迟超过 80/90ns 都已经出现计算能力下降的情况
内存 cpu 在上广的情况 天翼云在两地网络延迟能摸到 29ms 这延迟带来是非常致命 |
37
l4ever 2021-12-21 18:44:20 +08:00
内存、CPU 必须在一起, 人家厂商为了最大化的加速, 恨不得把内存集成到 CPU 里面去.
|
38
vhwwls 2021-12-21 19:04:35 +08:00
底层是高度定制化的 KVM ,CPU 和内存当然只能是同一台机器上的,至于硬盘视情况而定,大部分情况是分布式存储上的。
|
39
tinybaby365 2021-12-21 19:21:12 +08:00
CPU 和内存来自同一台 host ,( CPU 和内存都归为计算资源),磁盘可以来自该 host ,也可以是外部的云盘。云盘也是不会出 zone 的,不可能跨 region 的,延迟太大了。云盘使用的是 RDMA 类的方案。
|
40
littlewing 2021-12-21 19:51:25 +08:00
如果你买的是 1024C1024T 的配置的话,有可能是 2
|
41
lamesbond 2021-12-21 22:31:47 +08:00
应该是 1 ,阿里专有云资源快用完的时候,能开好几台 1 核,2 核的 ecs ,但开不出一台高配的,这些 1 核,2 核的就是每台物理机的“边角料”
|
42
dianso 2021-12-21 22:34:46 +08:00
内存一般都在香港吧,网线应该在美国和欧洲,硬盘在国内,毕竟数据重要。
|
43
Buges 2021-12-21 22:37:33 +08:00 via Android
除了硬盘都是 1 。其实 serverless 可以算是一种类似 2 的实现,不过你关心的不再是机器而是应用程序本身。
|
44
Barnard 2021-12-22 09:11:23 +08:00
不应该,异地的通信已经是大大制约了,即使在同一个主板都要想方设法增加内存和 cpu 之间的总线带宽,更别说异地了,所以现在 SOC 集成 CPU 和内存,性能提升明显。
另外这些都应该是很基础的计算机知识,楼主不知道么 ? |
45
ganbuliao 2021-12-22 11:29:37 +08:00
就是用了超融合 也得在一个机房里面 网络延迟是个大问题
|
46
thtznet 2021-12-22 12:00:43 +08:00
1 和 2 事实上是统一的,任何计算机的所有联接目前都是物理联接,网线也是通过物理连上的,所以 1 和 2 的区别只是联接的线是 PCB 上的金线还是光纤+PCB 金线,理论上 PCB 金线的数据传输极限也是光速,光纤的传速极限也是光速,但是基于物理地点的差距,那么即便都在光速的情况下传输信号,那么 [方案 1] 永远都比 [方案 2] 快,那么现实的问题是,如果 [方案 1] 的计算资源不够了怎么办?目前计算机设计的方案就是在物理地点附近堆硬件,将 2 台物理计算机相邻放置,并将 CPU 和内存和硬盘等多个组件全部联起来,用什么连?用 PCB 连,所以它成了多路服务器,规模再大点,还要继续堆硬件,物理地点还要更靠近,一个 PCB 板有制造极限,那么用多个 PCB 联接起来,所以它成了刀片服务器,规模再大点,继续堆。。。所以它成了超算。。。
|
47
Rorysky 2021-12-22 12:04:55 +08:00
连核与核之间的 cpu cache 同步都嫌代价大,你还搞 异地的?
2 不存在 |
48
cholerae 2021-12-22 13:26:34 +08:00
。。。。
|
49
Felldeadbird 2021-12-22 13:27:51 +08:00
第二个方案需要在 硬件上做设计. 不然怎样调度每个硬件? 抛开网络物理限制,每次请求接收运算就消耗了时间. 如果是一台超售的机房, 容错率怎样解决?
|
50
hyq 2021-12-22 13:50:14 +08:00
阿里云不太了解,但是从 AWS 来看,最大型号的虚拟机和唯一的物理机 baremetal 是相同配置,是不是可以断定是方案 1
|
51
libook 2021-12-22 15:22:53 +08:00
我的了解是 CPU 和内存在一个集群里,存储在另一个集群里。
所以可以算是大体上是方案 1 ,存储部分像方案 2 分离成独立的集群。 一台虚拟机的 CPU 、内存部分不会跨物理机,因为现在计算机性能太强了,网络是没法满足这么大强度的数据交换的。 |