GPFS (General Parallel File System) 介绍docs.linuxtone.org/ebooks/autOps/GPFS%bd%e9%c9%dc.pdf ·...

36
© 2005 Technical Support Service Technical Support Group GPFS (General Parallel File System) 介绍 介绍 介绍 介绍

Transcript of GPFS (General Parallel File System) 介绍docs.linuxtone.org/ebooks/autOps/GPFS%bd%e9%c9%dc.pdf ·...

© 2005 Technical Support Service

Technical Support Group

GPFS (General Parallel File System) 介绍介绍介绍介绍

© 2005 Technical Support Service

议程议程议程议程

1. GPFS介绍介绍介绍介绍

2. Oracle RAC on GPFS系统架构系统架构系统架构系统架构

3. Oracle RAC on GPFS优势优势优势优势

– 更快的主机间和存储间接管更快的主机间和存储间接管更快的主机间和存储间接管更快的主机间和存储间接管

–超强的易管理性超强的易管理性超强的易管理性超强的易管理性

–更好的更好的更好的更好的I/O条带化性能条带化性能条带化性能条带化性能

4. 成功案例成功案例成功案例成功案例

© 2005 Technical Support Service

� 源自源自源自源自IBM全球八大研究中心之一的美国全球八大研究中心之一的美国全球八大研究中心之一的美国全球八大研究中心之一的美国Almaden研究中心研究中心研究中心研究中心

� 1993年开始研究年开始研究年开始研究年开始研究,,,,1997年产品化年产品化年产品化年产品化。。。。最初产品名称最初产品名称最初产品名称最初产品名称::::虎鲨虎鲨虎鲨虎鲨(Tiger Shark)

� 最初目标最初目标最初目标最初目标: 数字视频数字视频数字视频数字视频、、、、大规模交互式多媒体大规模交互式多媒体大规模交互式多媒体大规模交互式多媒体((((交互式电视交互式电视交互式电视交互式电视、、、、视频点播视频点播视频点播视频点播))))

–服务质量(QoS):带宽、磁盘I/O

–共享磁盘模型:多个多媒体流同时访问同一文件内容 (striping)

–高可用性: 日志(journaling)、块(block)级复制

� 应用范围逐渐拓展应用范围逐渐拓展应用范围逐渐拓展应用范围逐渐拓展

–高性能计算、大规模web服务器、数据挖掘、生命科学、数字化图书馆等领域

� IBM美国美国美国美国Poughkeepsie Unix开发实验室开发实验室开发实验室开发实验室((((“深蓝的故乡深蓝的故乡深蓝的故乡深蓝的故乡”))))协助协助协助协助,,,,对对对对GPFS进一步进一步进一步进一步

完善并产品化完善并产品化完善并产品化完善并产品化。。。。

GPFS((((General Parallel File System)介绍介绍介绍介绍----背景背景背景背景

© 2005 Technical Support Service

GPFS (General Parallel File System)::::

IBM GPFS是一个可扩展是一个可扩展是一个可扩展是一个可扩展、、、、高性能高性能高性能高性能、、、、基于共基于共基于共基于共享磁盘的通用并行文件系统享磁盘的通用并行文件系统享磁盘的通用并行文件系统享磁盘的通用并行文件系统,,,,它能为它能为它能为它能为GPFS集群系统中的所有节点提供并行集群系统中的所有节点提供并行集群系统中的所有节点提供并行集群系统中的所有节点提供并行、、、、高速高速高速高速、、、、安安安安全全全全、、、、可靠的数据存取可靠的数据存取可靠的数据存取可靠的数据存取。。。。

� 通用性通用性通用性通用性::::向应用提供与标准向应用提供与标准向应用提供与标准向应用提供与标准UNIX文件系统一文件系统一文件系统一文件系统一致的数据访问接口致的数据访问接口致的数据访问接口致的数据访问接口。。。。

� 并行性并行性并行性并行性::::在分布式锁管理器的控制下在分布式锁管理器的控制下在分布式锁管理器的控制下在分布式锁管理器的控制下,,,,各各各各GPFS节点将数据和元数据节点将数据和元数据节点将数据和元数据节点将数据和元数据并行并行并行并行地写入到各地写入到各地写入到各地写入到各

个磁盘个磁盘个磁盘个磁盘((((或由各个磁盘读出或由各个磁盘读出或由各个磁盘读出或由各个磁盘读出)。)。)。)。

� 共享磁盘共享磁盘共享磁盘共享磁盘::::所有元数据和数据物理上分布在所有元数据和数据物理上分布在所有元数据和数据物理上分布在所有元数据和数据物理上分布在通过通过通过通过SAN交换网络连接的共享磁盘上交换网络连接的共享磁盘上交换网络连接的共享磁盘上交换网络连接的共享磁盘上。。。。

� 集群集群集群集群::::通过光纤网络或高速数据网络连接起通过光纤网络或高速数据网络连接起通过光纤网络或高速数据网络连接起通过光纤网络或高速数据网络连接起来的所有节点来的所有节点来的所有节点来的所有节点,,,,共同组成一个共同组成一个共同组成一个共同组成一个GPFS集群集群集群集群。。。。

GPFS节点节点节点节点

SAN交换网络交换网络交换网络交换网络

共享磁盘共享磁盘共享磁盘共享磁盘

GPFS介绍介绍介绍介绍----概述概述概述概述

© 2005 Technical Support Service

GPFS介绍介绍介绍介绍----概述概述概述概述

� 在高性能运算群集系统中,一个用户作业需要在多台主机上并行运行,每个主机有单独的CPU和内存,但需要

共享的磁盘系统来存放作业的中间数据。

� 文件系统的共享最常见有两种手段:NFS和GPFS。

� NFS (Network File System),I/O性

能差,没有高可用性,锁机制管理,并发性差。

� GPFS,一个文件系统能够横跨在所

有主机上,分布在所有磁盘上,条带化读写,高性能。信令管理机制,并发性好。有高可用性。

� GPFS和AIX紧密结合,在高性能运算

领域占据举足轻重的地位,有着广大的客户群;Oracle RAC支持GPFS文

件系统,在国内外也有大量的客户。

/nfs1

Disk01

Host01

Disk02

Host02

Disk03

Host03 Host04

/nfs1

LAN数据流NFS模式模式模式模式

Disk01

Host01

Disk02

Host02

Disk03

Host03 Host04

LAN数据流GPFS模式模式模式模式

/gpfs1

/nfs1

� I/O性能差,

� 没有高可用性,

� 锁机制管理,并发性差。

© 2005 Technical Support Service

GPFS介绍----与NFS,SAN File System比较

客户端客户端客户端客户端-服务器结构的网络文件系统服务器结构的网络文件系统服务器结构的网络文件系统服务器结构的网络文件系统

(NFS, DFS, or AFS):

� 存在单个服务器存在单个服务器存在单个服务器存在单个服务器”瓶颈瓶颈瓶颈瓶颈”

� 网络协议导致额外开销网络协议导致额外开销网络协议导致额外开销网络协议导致额外开销

SAN文件系统(Veritas, CXFS等):

元数据服务器是一个潜在的瓶颈

© 2005 Technical Support Service

GPFS 架构架构架构架构 --- General

� GPFS Cluster

GPFS群集是指多个节点的集合,它们共享同一

个或者多个并行文件系统;群集里的节点可以并

发访问这些文件系统里的数据。

� GPFS Admin LAN

� Network Share Disk (NSD)

NSD是GPFS一个虚拟的磁盘子系统,提供对GPFS内共享磁盘全局命名的功能。

� Primary/Secondary NSD Server

� Failure Group

Failure Group是一个磁盘的集合,一个单点故障

会引起集合内部的所有磁盘同时失效。

� Quorum

Quorum是保障GPFS资源可用和完整性的机制。在一个GPFS系统中,如果半数以上节点上的GPFS守护进程正常工作,此机制就被激活。GPFS文件系统就处于可用状态。

LUN1a LUN1b

网络交换机网络交换机网络交换机网络交换机-1

网络交换机网络交换机网络交换机网络交换机-2

GPFS Admin LAN

EtherChannel

P570-1 AIX 5.3

hdisk1a

NSD1a

hdisk1b

NSD1b

p570-2AIX 5.3

hdisk1a

NSD1a

hdisk1b

NSD1b

GPFS /gpfs1

存储存储存储存储1 存储存储存储存储2

GPFS cluster

© 2005 Technical Support Service

GPFS 架构架构架构架构––––特殊管理功能节点特殊管理功能节点特殊管理功能节点特殊管理功能节点

通常情况下,GPFS集群内所有节点执行相同的功能,例如管理和访问GPFS文件系

统。但有三种类型的节点执行一些具有全局性的特殊功能,它们是:

� GPFS Configuration Manger

– 处理当节点失效时处理当节点失效时处理当节点失效时处理当节点失效时,,,,判断是否满足判断是否满足判断是否满足判断是否满足Quorum,,,,从而决定从而决定从而决定从而决定FS系统是否持续可用系统是否持续可用系统是否持续可用系统是否持续可用

– 为文件系统选择为文件系统选择为文件系统选择为文件系统选择File Manger节点节点节点节点,,,,每个文件只有一个每个文件只有一个每个文件只有一个每个文件只有一个FSM,,,,从而保证数据的一致性从而保证数据的一致性从而保证数据的一致性从而保证数据的一致性。。。。

� File System Manger

– 处理文件系统配置的改变处理文件系统配置的改变处理文件系统配置的改变处理文件系统配置的改变,,,,例如增加删除磁盘等例如增加删除磁盘等例如增加删除磁盘等例如增加删除磁盘等。。。。Mount进程靠进程靠进程靠进程靠FSM和发请求节点共同执行和发请求节点共同执行和发请求节点共同执行和发请求节点共同执行。。。。

– 磁盘空间分配管理磁盘空间分配管理磁盘空间分配管理磁盘空间分配管理::::控制磁盘区域的分配控制磁盘区域的分配控制磁盘区域的分配控制磁盘区域的分配,,,,运行并发的空间分配运行并发的空间分配运行并发的空间分配运行并发的空间分配。。。。

– 信令管理功能信令管理功能信令管理功能信令管理功能::::实现多个节点对同一文件同一区域的并发访问实现多个节点对同一文件同一区域的并发访问实现多个节点对同一文件同一区域的并发访问实现多个节点对同一文件同一区域的并发访问。。。。

– Quota管理功能管理功能管理功能管理功能::::用户限额功能用户限额功能用户限额功能用户限额功能。。。。

� The Metadata Node

– 为维持文件 Metadata的一致性每一个被打开的文件都有一个MetaNode,任何一个访问该文件的节点都可以对该文件进行读写,但只有MetaNode可以更新该文件的MetaData。

– MetaNode是随机的,通常是访问该文件时间最长的节点担当。

© 2005 Technical Support Service

GPFS 架构架构架构架构––––文件系统结构文件系统结构文件系统结构文件系统结构

一个GPFS文件系统包含一组磁盘,称为一个条带组( stripe group)。用于存储MetaData, Quota Files, GPFS recovery log, User data。这些磁盘配置信息放置在每个磁盘的 file system descriptor area区,FSDA也包含文件系统状态信息。

� MetaData

– The same as UNIX file systems, inode, indirect blocks are considered Metadata.

� Quota Files

– 用于文件系统用于文件系统用于文件系统用于文件系统的限额功能的限额功能的限额功能的限额功能

� GPFS Recovery Log

当创建文件系统时当创建文件系统时当创建文件系统时当创建文件系统时,,,,就自动会创建就自动会创建就自动会创建就自动会创建GPFS recovery logs。。。。 GPFS recovery logs 一定是被复制一定是被复制一定是被复制一定是被复制的的的的,,,,并且可以通过位于并且可以通过位于并且可以通过位于并且可以通过位于FSDA内的指针找到它们内的指针找到它们内的指针找到它们内的指针找到它们。。。。 GPFS recovery logs 被平均分布在所有磁盘上被平均分布在所有磁盘上被平均分布在所有磁盘上被平均分布在所有磁盘上,,,,通通通通常情况下是不可见的常情况下是不可见的常情况下是不可见的常情况下是不可见的。。。。 The file system manager 为每一个访问这个文件系统的用户分配一个为每一个访问这个文件系统的用户分配一个为每一个访问这个文件系统的用户分配一个为每一个访问这个文件系统的用户分配一个GPFS Recovery Log。。。。

� User Data

The remaining space is allocated from the block allocation map as needed and is used

for user data and directories.

© 2005 Technical Support Service

GPFS 特点特点特点特点 ---更好的系统性能更好的系统性能更好的系统性能更好的系统性能

� 一个GPFS文件系统可以横跨在群集内的所有主机上,分布在所有磁盘上。GPFS文件系统在读写文件时采用条带化技术,将数据分成条带并行写入到该GPFS下的所有NSD中。在有高速数据通道(例如IBM High Performance Swith,网络带宽可达500MB/s)的GPFS配置下,读写文件时可以通过所有主机的光纤通道访问所有的磁盘,I/O条带化性能无可比拟。

� GPFS的条带化原理保证同一个GPFS下所有磁盘的I/O负载是均衡的,没有一块磁盘会比其它磁盘更繁忙。

� GPFS支持超大文件系统。GPFS2.3版本对GPFS文件系统的大小已经没有限制,IBM实验室测试过的GPFS文件系统大小为200T。而在AIX5.2中,JFS2文件系统的最大尺寸为1T。

� GPFS支持对文件的并发访问。它允许任何节点上的并行应用同时访问同一个文件或者不同的文件。

Disk01

Host01

Disk02

Host02

Disk03

Host03 Host04

LAN数据流GPFS

/gpfs1

© 2005 Technical Support Service

GPFS 特点特点特点特点 ---准确的系统一致性准确的系统一致性准确的系统一致性准确的系统一致性

� GPFS通过一套复杂的信令管理机制提供数据一致性;通过这套机制

允许任意节点通过各自独立的路径访问同一个文件。即使节点无法正常工作,GPFS也可以找到其它的路径。

� 和传统的锁机制相比,信令管理机制也确保了文件并发访问的高效性。

© 2005 Technical Support Service

GPFS 特点特点特点特点 ---高可用的文件系统高可用的文件系统高可用的文件系统高可用的文件系统

� GPFS是一种日志文件系统,为不同节点建立各自独立的日志。日志种记录Metadata的分布,一旦节点发生故障后,可以保证快速恢复数据。

� GPFS Fail-over功能通过规划,将数据分布到不同Failure Group内达到高可用性,减少单点故障的影响。为了保证数据可用性,GPFS可以在多个Failure

Group内为每个数据实例做备份,即使创建文件系统时没有要求复制,GPFS

也会自动在不同的Failure Group内复制恢复日志。

� GPFS对NSD的访问可用通过多路径进行,可用为每个NSD定义一个Primary

NSD Server和一个Secondary NSD Server。在SAN环境下,对NSD的访问,首先通过SAN进行,如果SAN不可访问,则通过网络访问Primary NSD

Server,Primary NSD Server再访问NSD。如果Primary NSD Server不可用,则由Secondary NSD Server完成对NSD的访问。

© 2005 Technical Support Service

GPFS 特点特点特点特点 ---增强的系统可扩展性增强的系统可扩展性增强的系统可扩展性增强的系统可扩展性

� 通过GPFS,系统资源可以动态调整;可以在文件系统挂载情况下添

加或者删除硬盘。当系统处于相对空闲时,用户可以在已配置的硬盘上重新均衡文件系统以提高吞吐量。

� 可以在不重新启动GPFS服务情况下添加新节点。

© 2005 Technical Support Service

GPFS 特点特点特点特点 ---简化的管理手段简化的管理手段简化的管理手段简化的管理手段

� GPFS自动在各个节点间同步配置文件和文件系统信息,

� 在同一个GPFS cluster内,对GPFS的管理可以在任一个节点上进行,在一个节点上执行的命令将在cluster内的所有节点上生效。

© 2005 Technical Support Service

1、、、、GPFS对主机的要求对主机的要求对主机的要求对主机的要求,,,,如主机硬件配置如主机硬件配置如主机硬件配置如主机硬件配置--------需要什么卡等需要什么卡等需要什么卡等需要什么卡等......

GPFS除需要使用HBA卡连接存储外,需要单独的网卡(最好两块)作为GPFS Admin VLAN。

2、、、、GPFS对共享存储的要求对共享存储的要求对共享存储的要求对共享存储的要求

GPFS测试过的共享存储:IBM 7133/DS4000/6000/8000/ESS/SVC, HDS 9900, EMC DMX

3、、、、GPFS对对对对AIX系统配置的要求系统配置的要求系统配置的要求系统配置的要求((((Patch、、、、参数等参数等参数等参数等))))

GPFS2.3: AIX5.2, AIX5.3 Suggest Latest Patches

4、、、、GPFS对对对对HACMP的要求的要求的要求的要求((((Patch、、、、参数等参数等参数等参数等))))

GPFS和HACMP没有关系

5、、、、GPFS对网络的要求对网络的要求对网络的要求对网络的要求

需要一个单独的网络(最好两块网卡做EtherChannel)作为GPFS Admin VLAN,如果是只有两个节点,可以使用HACMP的STB网卡。

6、、、、GPFS建议的单机建议的单机建议的单机建议的单机、、、、双机架构是什么样的双机架构是什么样的双机架构是什么样的双机架构是什么样的

GPFS无论是单机还是多机集群,架构都是相同的,LUN->PV->NSD->GPFS across whole cluster。多机集群下,实现高效文件的共享。单机集群也是允许的,由于GPFS的条带化特性,其性能也比单机的JFS/JFS2性能好,支持超大文件系统。

7、、、、GPFS对系统性能的影响对系统性能的影响对系统性能的影响对系统性能的影响

在GPFS集群内的所有节点上均运行GPFS进程,除File Manager节点外,其它节点消耗CPU很少, 5%左右,File Manager可能会在10%左右。对内存消耗主要是 PagePool,2G左右。

Questions -- 1

© 2005 Technical Support Service

8、、、、GPFS的限制的限制的限制的限制((((不能满足什么不能满足什么不能满足什么不能满足什么,,,,能满足什么能满足什么能满足什么能满足什么,,,,对什么需求可以很好发挥作用对什么需求可以很好发挥作用对什么需求可以很好发挥作用对什么需求可以很好发挥作用))))

GPFS的基本功能是实现文件系统的并发访问,对以下三种用途效果特好:1. 高性能运行领域,实现高效的文件共享,替换NFS功能,这是GPFS最常见,最基本的用法。

2. Oracle RAC运行在GPFS上,和裸设备相比,更快的接管速度,超强的易管理性,更好的I/O条带化性能。

3. 运行在流媒体行业,条带化性能和良好的并行性,实现海量数据的并发访问。

9、、、、GPFS在数据迁移时在数据迁移时在数据迁移时在数据迁移时,,,,有没有什么特殊的方法有没有什么特殊的方法有没有什么特殊的方法有没有什么特殊的方法????

使用传统的操作系统命令,cp/rcp/tar …

10、、、、GPFS的的的的IO特性特性特性特性,,,,与普通的与普通的与普通的与普通的jfs2有没有什么区别有没有什么区别有没有什么区别有没有什么区别????

GPFS主要是实现文件并发访问的,JFS2没有并发访问功能。但单机的GPFS和JFS2比,IO访问模式上应该是差不多的,但GPFS能够实现更多磁盘上的条带化;同时由于Recovery Log的分散化,性能上会比JFS2有所提高。

Questions -- 2

© 2005 Technical Support Service

12、、、、GPFS真实案例的性能真实案例的性能真实案例的性能真实案例的性能、、、、稳定性的数据稳定性的数据稳定性的数据稳定性的数据

黑龙江移动经营分析系统,2 * p570 + 1 * DS8300,两台主机同时写一个文件系统,800M/s,达到两块光纤卡的上限

沈阳铁路局调度系统,3 * p570 + 2 * EMC800,400M/s。运行半年多,没出过任何问题。

国家气象局, 256个节点GPFS集群,4 * I/O Server + 2 * FastT900, 360M/s

吉林大学, 8 * p575 + 1 DS4500,200M/s

更多案例见最后成功案例

Questions -- 3

© 2005 Technical Support Service

GPFS and ORACLE

Oracle 单机版单机版单机版单机版

– JFS

管理简单

两级缓存,性能差

– JFS2

管理简单

使用dio/cio,接近裸设备

– Raw Device

管理复杂

性能好

AIX平台上平台上平台上平台上,,,,Oracle 可以运行在哪些设备上可以运行在哪些设备上可以运行在哪些设备上可以运行在哪些设备上????

Oracle RAC

– Raw Device

管理复杂

性能好

– General Parallel File Systems

更快的接管速度

超强的易管理性

更好的I/O条带化性能

– Oracle AMS

– Veritas Cluster File System

© 2005 Technical Support Service

议程议程议程议程

1. GPFS介绍介绍介绍介绍

2. Oracle RAC on GPFS系统架构系统架构系统架构系统架构

3. Oracle RAC on GPFS优势优势优势优势

–更快的主机间和存储间接管更快的主机间和存储间接管更快的主机间和存储间接管更快的主机间和存储间接管

–超强的易管理性超强的易管理性超强的易管理性超强的易管理性

–更好的更好的更好的更好的I/O条带化性能条带化性能条带化性能条带化性能

4. 成功案例成功案例成功案例成功案例

© 2005 Technical Support Service

方案一方案一方案一方案一 Oracle RAC on Raw Device 系统逻辑架构系统逻辑架构系统逻辑架构系统逻辑架构

LUN1a

LUN2a

DS6800-A

LUN1b

LUN2b

DS6800-B

hdisk1b

Logical Volume Device Drive

datavg(并发卷组并发卷组并发卷组并发卷组)lv1 lv2 lv3

Raw Dev Raw Dev Raw Dev

Oracle RAC 数据库数据库数据库数据库应用程序应用程序应用程序应用程序

File System

fsvg1

LVDD

数据文件数据文件

HACMP Daemon

p570-1 AIX 5.3

应应应应

用用用用

层层层层

逻逻逻逻辑卷管理器

辑卷管理器

辑卷管理器

辑卷管理器

物物物物理理理理层层层层

hdisk1bhdisk1a

Logical Volume Device Drive

datavg(并发卷组并发卷组并发卷组并发卷组)lv1 lv2 lv3

Raw Dev Raw Dev Raw Dev

Oracle RAC 数据库数据库数据库数据库应用程序应用程序应用程序应用程序

File System

fsvg2

LVDD

数据文件数据文件

HACMP Daemon

p570-2AIX 5.3

网络交换机网络交换机网络交换机网络交换机-1

网络交换机网络交换机网络交换机网络交换机-2

p5701_svc

p5701_stb

p5702_svc

p5702_stb

Oracle Interconnection

EtherChannel

Oracle Interconnection

EtherChannel

hdisk1a

© 2005 Technical Support Service

HACMP + Oracle RAC on GPFS系统逻辑架构系统逻辑架构系统逻辑架构系统逻辑架构

LUN1a

LUN2a

DS8100-A

LUN1a

LUN2b

网络交换机网络交换机网络交换机网络交换机-1

网络交换机网络交换机网络交换机网络交换机-2

p5701_svc

p5701_stb

p5702_svc

p5702_stb

Oracle Interconnection

GPFS Admin LAN

EtherChannel p5703_stb

p5703_svc

p570-1 AIX 5.3

hdisk1a

NSD1a

hdisk1b

NSD1b

p570-2AIX 5.3

hdisk1a

NSD1a

hdisk1b

NSD1b

p570-3 AIX 5.3

hdisk1a

NSD1a

hdisk1b

NSD1b

GPFS /gpfs_oraOracle RAC 数据库以及应用程序数据库以及应用程序数据库以及应用程序数据库以及应用程序数据文件

HACMP Daemon HACMP Daemon

DS8100-B

HACMP Daemon

© 2005 Technical Support Service

议程议程议程议程

1. GPFS介绍介绍介绍介绍

2. Oracle RAC on GPFS系统架构系统架构系统架构系统架构

3. Oracle RAC on GPFS优势优势优势优势

–更快的主机间和存储间接管速度更快的主机间和存储间接管速度更快的主机间和存储间接管速度更快的主机间和存储间接管速度

–超强的易管理性超强的易管理性超强的易管理性超强的易管理性

–更好的更好的更好的更好的I/O条带化性能条带化性能条带化性能条带化性能

4. 成功案例成功案例成功案例成功案例

© 2005 Technical Support Service

Oracle RAC on GPFS 优势优势优势优势 ---接管速度比较接管速度比较接管速度比较接管速度比较

三台主机同时执行数据库插入操作,关闭一台存储和一个光纤交换机,插入操作停顿20秒。

两台主机同时执行数据库插入操作,关闭一台存储,插入操作停顿2分30秒。

一个存一个存一个存一个存储损坏储损坏储损坏储损坏时对应时对应时对应时对应用程序用程序用程序用程序的影响的影响的影响的影响

只需要接管IP地址,在30秒左右。(不加启动应

用的时间)

需要接管文件系统卷组和IP地址,在2分钟左右。(不加启动应用的

时间)

HACMP

接管速接管速接管速接管速度度度度

GPFS不在HACMP里管理,HACMP只需负责IP

地址,启动很迅速,在 2 分钟左右。由于HACMP需要检查每个裸设备

状态,控制并发卷组,每个节点需要顺序启动,需要 6 分钟左右。

HACMP

启动速度

Oracle RAC on GPFS

沈阳铁路局沈阳铁路局沈阳铁路局沈阳铁路局

Oracle RAC on Raw Device

兰州铁路局兰州铁路局兰州铁路局兰州铁路局

© 2005 Technical Support Service

议程议程议程议程

1. GPFS介绍介绍介绍介绍

2. Oracle RAC on GPFS系统架构系统架构系统架构系统架构

3. Oracle RAC on GPFS优势优势优势优势

–更快的主机间和存储间接管速度更快的主机间和存储间接管速度更快的主机间和存储间接管速度更快的主机间和存储间接管速度

–超强的易管理性超强的易管理性超强的易管理性超强的易管理性

–更好的更好的更好的更好的I/O条带化性能条带化性能条带化性能条带化性能

4.成功案例成功案例成功案例成功案例

© 2005 Technical Support Service

Oracle RAC on GPFS 优势优势优势优势 ---超强的易管理性超强的易管理性超强的易管理性超强的易管理性

表空间可以自动扩充,由文件系统自动进行管理。而且GPFS文件系统是一种支持超大文件的

文件系统,理论最大尺寸没有限制,已经测试过的GPFS文件系统可以建到200T(JFS2文件系统最大为1T)。我们可以将所有存储都分配给GPFS文件系统,由GPFS自动进行管理,这样不仅管理简单,而且还能够获取最好性能。

手工限定大小,当空间不够时需要增加裸设备。

表空间表空间表空间表空间管理管理管理管理

GPFS由于自身能实现很好的条带化,只需在要创建GPFS时注意磁盘的物理分布即可。GPFS文件系统中包含的磁盘越多,I/O条带化性能会越好。

需要仔细调整裸设备的物理分布,例如访问最频繁的表空间的数据库文件要放置在不同的硬盘上,以免发生I/O冲突。数据库越大,裸设备就会越多,规划工作会越复杂。

数据库数据库数据库数据库物理结物理结物理结物理结构规划构规划构规划构规划时时时时

只需指定一个目录即可创建并发卷组; HACMP管理并发

卷组;创建裸设备;更改裸设备属组;同步所有节点;创建数据库

创建数创建数创建数创建数据库据库据库据库

可以安装在GPFS上,所有节点只需要共享一套

程序,所有配置只需要维护一份。对安装和维护,和单机版的数据库没什么区别。节点越多,优势越明显。

安装在每台主机上,修改配置和参数需要逐个修改

Oracle程

序代码安装

Oracle RAC on GPFSOracle RAC on Raw Device

© 2005 Technical Support Service

Oracle RAC on GPFS 优势优势优势优势 ---超强的易管理性超强的易管理性超强的易管理性超强的易管理性 cont

HACMP只需要负责网络IP地址的接管即可,启动和停止非常迅速,而且不容易出问题。GPFS

自身的启动速度很快,几个T的文件系统,在所有节点上同时mount可以只需要几秒钟时间。

需要HACMP软件来管理并发卷组,HACMP在varyon并发卷组

时,要逐个检查裸设备的状态,裸设备越多,检查时间会越长,启动越慢。而且多个节点启动时需要逐个顺序启动,时间会比较长。一旦HACMP出现问题,导致卷组不正常,只能通过重新启动机器来解决。

和和和和HACMP

的配合的配合的配合的配合上上上上

GPFS文件系统的扩容可以在线进行,只需要将硬盘加入到GPFS中,GPFS可以在线将数据重新

条带到所有硬盘上,不需要人为干涉,减少出错的几率。

需要将新存储的逻辑盘加入到逻辑卷中,然后再创建新的裸设备,分配给数据库使用。如此操作,需要停机的时间比较长。

存储扩存储扩存储扩存储扩容时容时容时容时

无需额外操作需要停止业务运行,停止HACMP,在并发卷组中创建新的

逻辑卷,然后将卷组信息同步到所有节点上,再启动HACMP,启动业务。

增加新增加新增加新增加新的数据的数据的数据的数据文件时文件时文件时文件时

Oracle RAC on GPFSOracle RAC on Raw Device

© 2005 Technical Support Service

Oracle RAC on GPFS 优势优势优势优势 ---超强的易管理性超强的易管理性超强的易管理性超强的易管理性 cont

就像单机版数据库一样,性能好,操作简单,有高可用性,不容易出问题。

需要在每个节点上分别创建归档日志目录,RMAN对其分别进行备

份,故障点增多,备份和恢复非常麻烦。也可以使用NFS,但NFS存

在速度慢、受制于网络、不稳定、存在单点故障的问题。

归档日归档日归档日归档日志目录志目录志目录志目录

Oracle RAC on GPFSOracle RAC on Raw Device

© 2005 Technical Support Service

议程议程议程议程

1. GPFS介绍介绍介绍介绍

2. Oracle RAC on GPFS系统架构系统架构系统架构系统架构

3. Oracle RAC on GPFS优势优势优势优势

–更快的主机间和存储间接管速度更快的主机间和存储间接管速度更快的主机间和存储间接管速度更快的主机间和存储间接管速度

–超强的易管理性超强的易管理性超强的易管理性超强的易管理性

–更好的更好的更好的更好的I/O条带化性能条带化性能条带化性能条带化性能

4. 成功案例成功案例成功案例成功案例

© 2005 Technical Support Service

Oracle RAC on GPFS 优势优势优势优势 ---条带化性能测试数据条带化性能测试数据条带化性能测试数据条带化性能测试数据

4m10s2m53s3m03sselect count(*)

14m20s8m27s9m18s插入插入插入插入1亿条纪录亿条纪录亿条纪录亿条纪录

3m12s2m02s2m07s插入插入插入插入2500万条记录第二次万条记录第二次万条记录第二次万条记录第二次

2m50s1m50s2m14s插入插入插入插入2500万条记录第一次万条记录第一次万条记录第一次万条记录第一次

不做条带的裸设备时间不做条带的裸设备时间不做条带的裸设备时间不做条带的裸设备时间最精细的条带化的裸设最精细的条带化的裸设最精细的条带化的裸设最精细的条带化的裸设

备时间备时间备时间备时间GPFS时间时间时间时间操作操作操作操作

测试环境及过程

� SAN环境。主机采用3台IBM p650,存储采用两台DS6800,SAN光纤交换机。软件采用AIX 5.3 + ML02,HACMP 5.2 + PTF SET 5,GPFS 2.3 + PTF SET 6,Oracle 9i RAC 9.2.0.6。

� 将Oracle数据库的系统表空间文件创建在一个GPFS文件系统/gpfs2上。然后在四块10G的硬盘上分别创建GPFS文件系统和裸设备,在两者上分别创建测试表空间和表,比较插入和查询的性能。

� 裸设备的创建有两种方式,一种是不做条带化,这是最常用的创建方法;另外一种是做最精细的条带化,将LV创建在4块盘上,分布在盘的最中心位置。

测试结论

© 2005 Technical Support Service

Oracle RAC on GPFS 优势优势优势优势 ---条带化性能优势条带化性能优势条带化性能优势条带化性能优势

GPFS的条带化保证了Oracle的I/O性能是稳定

的,在使用过程中会一直保持最初创建时侯的性能,这是因为GPFS横跨在所有的硬盘上,所有的硬盘繁忙程度一样,本身就起到了均衡I/O

负载的作用。

裸设备即使最初规划的很好,可随着业务运行的模式不同,也会出现某些磁盘异常繁忙而某些磁盘异常空闲的情况,I/O冲突问题随时可能会发生。

I/O性能性能性能性能

的稳定的稳定的稳定的稳定性性性性

事实事实事实事实::::在系统只有4块硬盘的情况下:

� 裸设备不做条带化,性能比GPFS慢50%;

� 做最精细的条带化(裸设备和GPFS分布在同样多的硬盘上),也就是裸设备和GPFS做同样的条带化,裸设备性能比GPFS快10%。

原理原理原理原理::::在没有高速网络通道(例如IBM HPS网络)的配置下,GPFS数据通过SAN传

输,底层也是使用裸设备的并行访问方式,但加了一个文件系统层,造成一定的系统开销。因此,在同等条带化的前提下,比裸设备慢10%左右。

推论推论推论推论::::在容量为T的数据库中,一个裸设备只可能分布在有限的几块盘上,而GPFS

分布在所有盘上。这种情况就类似与裸设备不做条带的情况,势必要比GPFS慢一些。数据库越大,GPFS性能就越好。

纯性能纯性能纯性能纯性能比较比较比较比较

Oracle RAC on GPFSOracle RAC on Raw Device

© 2005 Technical Support Service

Oracle RAC on GPFS 优势优势优势优势 ---条带化性能优势条带化性能优势条带化性能优势条带化性能优势cont

条带化原理保证所有磁盘平分压力,即使多台主机同时执行大量读写操作,磁盘的繁忙程度也不会过分增加。

由于条带化有限,会出现某些磁盘异常繁忙的情况,从而造成业务瓶颈。

业务压业务压业务压业务压力增大力增大力增大力增大对性能对性能对性能对性能的影响的影响的影响的影响

除操作简单外,GPFS添加新的硬盘后,会自动重新做条带化,扩容使性能更好。

从安全性考虑,使用裸设备,一般不会将原来的裸设备重新打散分布在新盘上以获取更好的I/O的性能;

存储扩存储扩存储扩存储扩容对性容对性容对性容对性能的影能的影能的影能的影响响响响

GPFS的条带化使数据库物理结构的规划变得异

常简单,这是管理上的优势,也是性能上的优势。

要仔细规划。当裸设备很多时,不仅规划难度大,而且在性能上也难易保证绝对的I/O均衡。

数据库数据库数据库数据库物理结物理结物理结物理结构规划构规划构规划构规划对性能对性能对性能对性能影响影响影响影响

Oracle RAC on GPFSOracle RAC on Raw Device

© 2005 Technical Support Service

议程议程议程议程

1. GPFS介绍介绍介绍介绍

2. Oracle RAC on GPFS系统架构系统架构系统架构系统架构

3. Oracle RAC on GPFS优势优势优势优势

–超强的易管理性超强的易管理性超强的易管理性超强的易管理性

–更好的更好的更好的更好的I/O条带化性能条带化性能条带化性能条带化性能

4. 成功案例成功案例成功案例成功案例

© 2005 Technical Support Service

GPFS 成功案例成功案例成功案例成功案例––––沈阳铁路局调度系统沈阳铁路局调度系统沈阳铁路局调度系统沈阳铁路局调度系统

LUN1a

LUN2a

DS8100-A

LUN1a

LUN2b

网络交换机网络交换机网络交换机网络交换机-1

网络交换机网络交换机网络交换机网络交换机-2

p5701_svc

p5701_stb

p5702_svc

p5702_stb

Oracle Interconnection

GPFS Admin LAN

EtherChannel p5703_stb

p5703_svc

p570-1 AIX 5.3

hdisk1a

NSD1a

hdisk1b

NSD1b

p570-2AIX 5.3

hdisk1a

NSD1a

hdisk1b

NSD1b

p570-3 AIX 5.3

hdisk1a

NSD1a

hdisk1b

NSD1b

GPFS /gpfs_oraOracle RAC 数据库以及应用程序数据库以及应用程序数据库以及应用程序数据库以及应用程序数据文件

HACMP Daemon HACMP Daemon

DS8100-B

HACMP Daemon

� 3 * IBM p570 + 2

* EMC 800

� AIX 5.3 + HA 5.2

+ Oracle RAC

9.2.0.7 + GPFS

2.3

� 三台主机两个存储中,只剩下一台主机和一台存储仍可正常工作

� 用客户的话说,使用GPFS后,

管理方式上发生了根本的改变,性能很好,没有I/O等待。

� 非常稳定

© 2005 Technical Support Service

GPFS 成功案例成功案例成功案例成功案例––––黑龙江移动经营分析系统黑龙江移动经营分析系统黑龙江移动经营分析系统黑龙江移动经营分析系统

LUN1a

LUN2a

DS8300

网络交换机网络交换机网络交换机网络交换机-1

网络交换机网络交换机网络交换机网络交换机-2

p5701_svc

p5701_stb

p5702_svc

p5702_stb

Oracle Interconnection

GPFS Admin LAN

EtherChannel

p570-1 AIX 5.3

vpath1a

NSD1a

vpath2a

NSD2a

p570-2AIX 5.3

vpath1a

NSD1a

vpath2a

NSD2a

GPFS

/gpfs_ora

Oracle RAC 数据库以及应用程数据库以及应用程数据库以及应用程数据库以及应用程序序序序数 据 文件

HACMP Daemon HACMP Daemon

� 2 * IBM p570 + 1 * DS8300

� AIX 5.3 + HA 5.3 + Oracle

RAC 9.2.0.6 + GPFS 2.3

� 超大数据量,50T,512块硬

� 创建两个GPFS文件系统,一个25T,一个29T。

� 没有使用GPFS前,使用裸设备,40个并发卷组,1300个裸设备,同步一次需要2到3

个多小时。

� 使用GPFS,文件系统mount

上并可用仅仅需要15秒。

� 性能很好,两台机器同时写一个文件系统,速度达到800M/s,到达两个光纤卡的极限

� 创建表空间,每小时可达 1.5T。插入1亿条纪录,只需要4分钟。而之前测试过的,在8块盘最精细的条带化裸设备中,需要9分钟。

© 2005 Technical Support Service

GPFS 成功案例成功案例成功案例成功案例 --其它其它其它其它

2 * p570 + 2 * DS8300,Oracle 9i RAC, GPFS中国黑龙江移动

3 * p570 + 2 * EMC8000, Oracle 9i RAC, GPFS,

HACMP中国沈阳铁路局

4 * S85, Oracle 10g, GPFS, HACMP中国铁道部资金清算中心

已运行3年3 * P690, Oracle 9i RAC, GPFS,HACMP香港苏格兰皇家银行

已运行3年5 * p690, Oracle 9i RAC, GPFS,HACMP英国苏格兰皇家银行

已运行3年4 * p690, Oracle 10g RAC, GPFS, HACMP澳洲澳大利亚电信

多套GPFS cluster,每套基本在256个节点左右美国美国国家航天局

从2000年开始运行IBM SP,6节点GPFS中国北京大学

从1999年开始运行IBM SP, 64节点GPFS中国东营胜利油田

从1999年开始运行IBM SP,48节点GPFS中国北京石油勘探院

已运行三年4 * IBM p690,4节点GPFS中国中科院大气物理所

已运行一年3 * IBM p690,3节点GPFS中国国家海洋局

从1998年开始运行IBM SP System, 28节点GPFS

已运行一年378 IBM p655 + 6 p690, IBM High Performance

Switch,384 节点GPFS中国国家气象局

备注软硬件环境国家客户名称

© 2005 Technical Support Service

Q/A,THANKS