HadoopのファイルシステムAPI⼊⾨ - OSPNHadoopが提供するFileSystem APIを解説...

2019/08/24⽇本Hadoopユーザー会岩崎正剛

HadoopのファイルシステムAPI⼊⾨

Hadoopが提供するFileSystem APIを解説JavaのAPIの話

普段ユーザがあまり意識しない部分かもMapReduceやSpark経由で利⽤されている

より深くHadoopを使いこなすために

はじめに

Hadoop Distributed File SystemHadoop = 分散FS + 分散処理FWHadoopアプリケーション =

(HDFS上の)データを分散処理するもの

https://hadoop.apache.org/docs/r3.2.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

ファイルシステムとしての機能を提供階層的な名前空間(ファイルとディレクトリ)ファイルデータの⾼速な読み書きパーミッションによるアクセス制御quota透過的暗号化extended file attribute, inotify

xfsやext4などの上で動くPOSIX準拠ではない可⽤性、データ保全性が⾼い⼤きなファイル(100+MB)の格納に最適化

HDFSの概要

マスターノード(NameNode)がボトルネック1. NameNodeのヒープサイズ(<100GBくらい?)2. 管理可能なスレーブノード数(<10000くらい?)3. 処理可能なリクエスト数(<10万tpsくらい?)

ざっくりした⽬安100万データブロックあたりヒープ1GBヒープサイズはGC的に100GB程度まで1億ブロックで12.8PB (ブロックサイズ128MBで)

HDFSのスケーラビリティ

基本的なファイル操作

Linuxのコマンドと似たような雰囲気CLI(FsShell)はJava APIを利⽤して作られたもの

CLIによる基本的なファイル操作

$ hdfs dfs -mkdir -p /foo/bar $ hdfs dfs -chmod g+w /foo/bar $ hdfs dfs -ls -R / drwxr-xr-x - iwasakims supergroup 0 2019-08-21 15:11 /foo drwxrwxr-x - iwasakims supergroup 0 2019-08-21 15:11 /foo/bar

$ echo baz > baz.txt $ hdfs dfs -put baz.txt /foo/bar $ hdfs dfs -head /foo/bar/baz.txt baz $ hdfs dfs -rm -r /foo

URIに対応するインスタンスを取得設定上のデフォルトFSなら明⽰的な指定は不要

FileSystemインスタンスの取得

scala> import org.apache.hadoop.conf.Configuration scala> import org.apache.hadoop.fs.FileSystem scala> import org.apache.hadoop.fs.Path scala> val conf = new Configuration() scala> conf.get("fs.defaultFS") res0: String = hdfs://localhost:8020/ scala> val fs = FileSystem.get(conf) scala> val path = new Path("hdfs://localhost:8020/") scala> val fs = p.getFileSystem(conf) scala> val fs = FileSystem.get(path.toUri(), conf)

ディレクトリの作成基本的に親がなければ作成 (mkdir -p)

mkdirs

scala> val path = new Path("/foo/bar") scala> fs.mkdirs(path) res1: Boolean = true scala> fs.exists(new Path("/foo")) res2: Boolean = true

パーミッションの設定値の指定は8進数やenumでHDFSの場合ファイルのx(execute)に意味はない

setPermission

scala> import org.apache.hadoop.fs.permission.FsPermission scala> import org.apache.hadoop.fs.permission.FsAction scala> val perm = new FsPermission("0775") scala> fs.setPermission(path, perm) scala> val perm = new FsPermission(FsAction.ALL, FsAction.ALL, FsAction.READ_EXECUTE) perm: org.apache.hadoop.fs.permission.FsPermission = rwxrwxr-x scala> fs.setPermission(path, perm)

ファイル情報(FileStatus)の取得

listStatus

scala> val listing = fs.listStatus(new Path("/")) listing: Array[org.apache.hadoop.fs.FileStatus] = Array(HdfsLocatedFileStatus{path=hdfs://localhost:8020/foo; isDirectory=true; modification_time=1566384749729; access_time=0; owner=iwasakims; group=supergroup; permission=rwxr-xr-x; isSymlink=false; hasAcl=false; isEncrypted=false; isErasureCoded=false})

scala> listing(0).isDirectory res1: Boolean = true

scala> fs.listStatus(listing(0).getPath()) res4: Array[org.apache.hadoop.fs.FileStatus] = Array(HdfsLocatedFileStatus{path=hdfs://localhost:8020/foo/bar; isDirectory=true; modification_time=1566384749729; access_time=0; owner=iwasakims; group=supergroup; permission=rwxrwxr-x; isSymlink=false; hasAcl=false; isEncrypted=false; isErasureCoded=false})

ファイルの新規作成&書き込みオープン得られたOutputStreamにバイト列を書き込むseek不可create時点で他のクライアントにもvisible

create

scala> import java.nio.charset.Charset scala> val os = fs.create(new Path("/foo/bar/baz.txt")) scala> val buf ="baz".getBytes(Charset.forName("UTF-8")) buf: Array[Byte] = Array(98, 97, 122) scala> os.write(buf, 0, buf.length) scala> os.close()

ファイルの読み込みオープン任意の位置をreadできる(pread)

scala> import java.nio.ByteBuffer scala> val is = fs.open(new Path("/foo/bar/baz.txt")) scala> val buf = ByteBuffer.allocate(3) scala> is.read(buf) res1: Int = 3 scala> new String(buf.array(), Charset.forName("UTF-8")) res2: String = baz scala> val buf = ByteBuffer.allocate(2) scala> is.read(1, buf) res3: Int = 2 scala> new String(buf.array(), Charset.forName("UTF-8")) res4: String = az

ファイル/ディレクトリの削除再帰的に削除するかどうかを引数で指定引数なしのdelete(rm -r)はdeprecated

delete

scala> fs.delete(new Path("/foo"), true) res3: Boolean = true scala> fs.delete(new Path("/foo")) warning: there was one deprecation warning; for details, enable `:setting -deprecation' or `:replay -deprecation' res23: Boolean = false

HDFS特有の機能/仕様

ブロックを保持するノード情報の取得分散処理のタスクスケジューリングで利⽤

ブロック保持ノードに処理させる

データローカリティ

scala> val it = fs.listLocatedStatus(path) it: org.apache.hadoop.fs.RemoteIterator[org.apache.hadoop.fs.LocatedFileStatus] = org.apache.hadoop.hdfs.DistributedFileSystem$DirListingIterator@68f68a1a scala> while (it.hasNext()) { | val locations = it.next().getBlockLocations() | locations.foreach(println) | } 0,6,localhost

ファイルを書き込み再オープン書き込みは末尾に追加(既存部分は上書きできない)

append

scala> val os = fs.append(new Path("/foo/bar/baz.txt")) os: org.apache.hadoop.fs.FSDataOutputStream = FSDataOutputStream{wrappedStream=DFSOutputStream:blk_1073741828_1004}

scala> val buf ="bazbaz".getBytes(Charset.forName("UTF-8")) scala> os.write(buf, 0, buf.length) scala> os.close()

$ bin/hdfs dfs -cat /foo/bar/baz.txt bazbazbaz

書き込みを確定する(fsync)ファイルシステムメタデータは更新されないhsync: 各スレーブノードでfsyncしてリターン

hflush / hsync

scala> val os = fs.create(new Path("/hflush.txt")) scala> val buf ="sync".getBytes(Charset.forName("UTF-8")) scala> os.write(buf, 0, buf.length) scala> os.hflush() scala> os.write(buf, 0, buf.length) scala> os.hflush()

$ hdfs dfs -cat /hflush.txt syncsync $ hdfs dfs -ls /hflush.txt -rw-r--r-- 1 iwasakims supergroup 4 2019-08-22 09:47 /hflush.txt

NameNodeにブロック割り当てリクエストDataNodeに対して書き込みパイプライン構築DataNodeからNameNodeにブロック情報を報告

(参考)HDFSのデータ書き込みの流れ

DataNode

NameNode

DataNode

Client

DataNode

report

1. addBlock

LocatedBlock

2. writeBlock

ackack

open時点でvisibleな部分までしか読めないtail -f的に読むには「再openしてseek」を繰り返す

Tailing

scala> val is = fs.open(new Path("/foo/bar/baz.txt")) scala> is.read() res1: Int = 98 ... scala> is.read() res2: Int = -1 scala> val os = fs.append(new Path("/foo/bar/baz.txt")) scala> os.write(buf, 0, buf.length) scala> os.close() scala> is.read() res3: Int = -1 scala> val is = fs.open(new Path("/foo/bar/baz.txt")) scala> fs.seek(3) scala> is.read() res4: Int = 98

セキュリティ

Kerberosを利⽤JAAS(Java Authentication and Authorization Service)FileSystem APIで意識する場⾯は少ない

スレーブノード上で実⾏されるタスクはエンドユーザ権限でHDFSにアクセスする必要がある

Hadoopのユーザ認証

ジョブ投⼊時にトークンを取得タスクはトークンを利⽤して認証

Delegation Token

scala> val ugi = UserGroupInformation.getCurrentUser() ugi: org.apache.hadoop.security.UserGroupInformation = iwasakims@EXAMPLE.COM (auth:KERBEROS) scala> val token = fs.getDelegationToken("yarn/localhost@EXAMPLE.COM") token: org.apache.hadoop.security.token.Token[_] = Kind: HDFS_DELEGATION_TOKEN, Service: 127.0.0.1:8020, Ident: (token for iwasakims: HDFS_DELEGATION_TOKEN owner=iwasakims@EXAMPLE.COM, renewer=iwasakims, realUser=, issueDate=1566394690379, maxDate=1566999490379, sequenceNumber=1, masterKeyId=4)

scala> ugi.addToken(token) res2: Boolean = true

スレーブノード上のタスクにtokenを渡す

Delegation Tokenの受け渡し

scala> import org.apache.hadoop.security.Credentials scala> import org.apache.hadoop.io.DataOutputBuffer scala> import org.apache.hadoop.io.DataInputByteBuffer scala> import org.apache.hadoop.security.Credentials scala> val creds = ugi.getCredentials() scala> val ob = new DataOutputBuffer() scala> creds.writeTokenStorageToStream(ob) scala> val buf = ByteBuffer.wrap(ob.getData(), 0, ob.getLength())

scala> val creds = new Credentials() scala> val ib = new DataInputByteBuffer() scala> ib.reset(buf) scala> creds.readTokenStorageStream(ib) scala> val ugi = UserGroupInformation.getLoginUser() scala> ugi.addCredentials(creds)

分散処理のための部品

⼊⼒ファイルを分割してタスクに対応づけるタスクごとにデータを処理する

作業⽤ディレクトリを作るタスクの出⼒ファイルを作る⼊⼒ファイルからレコードを読み出すデータを処理する出⼒ファイルにレコードを書き込む

出⼒ファイルを作業場所から移動する

⼊出⼒はフレームワークで抽象化されている

Hadoopジョブによるデータ処理の流れ

⼊⼒(ファイル)を抽象化するもの⼊⼒をInputSplitに分割レコードを読み出す例えばテキストファイルならレコードは⾏see TextOutputFormat

InputFormat

public abstract class InputFormat<K, V> { public abstract List<InputSplit> getSplits(JobContext context ) throws ... public abstract RecordReader<K,V> createRecordReader(InputSplit split, TaskAttemptContext context ) throws ... }

出⼒(ファイル)を抽象化するものレコードを書き出す出⼒できるかを確認する出⼒を確定する

OutputFormat

public abstract class OutputFormat<K, V> { public abstract RecordWriter<K, V> getRecordWriter(TaskAttemptContext context ) throws ... public abstract void checkOutputSpecs(JobContext context ) throws ... public abstract OutputCommitter getOutputCommitter(TaskAttemptContext context ) throws ... }

ジョブ/タスク完了時に出⼒を確定成功: ユーザ/後続処理にすべての出⼒が⾒える

失敗: ユーザ/後続処理にゴミが⼀切⾒えないジョブ/タスクの失敗/中⽌の後⽚付け

OutputCommitter

public abstract class OutputCommitter { public abstract void setupJob(JobContext jobContext) public void cleanupJob(JobContext jobContext) public void commitJob(JobContext jobContext) public void abortJob(JobContext jobContext, JobStatus.State state) public abstract void setupTask(TaskAttemptContext taskContext) public abstract boolean needsTaskCommit(TaskAttemptContext taskContext) public abstract void commitTask(TaskAttemptContext taskContext) public abstract void abortTask(TaskAttemptContext taskContext) public boolean isRecoverySupported() public boolean isCommitJobRepeatable(JobContext jobContext) public boolean isRecoverySupported(JobContext jobContext) public void recoverTask(TaskAttemptContext taskContext) }

デフォルトのOutputCommitter成功:

出⼒ファイルを最終出⼒先にrename_SUCCESSというからファイルを作る

失敗:作業ディレクトリをdelete

FileOutputCommitter

基本的なユースケースではあまり意識しなくて済む既存の実装が要件にマッチしなければ改造できるFileSystem APIの使い⽅の参考にもなる

Why it matters

データストアの抽象化

Hadoop Compatible File Systems

Hadoop FileSystem API

HadoopApplication

HDFS Local FS Amazon S3Azure

Data Lake Storage gen2

...DistributedFileSystem

LocalFileSystem

S3AFileSystem

AzureBlobFileSystem

SparkMapReduce

SparkApplication

MapReduceApplication

WebHdfsFileSystem

OzoneFileSystem

ファイルのpathをURI形式で指定schemeに応じてよしなにデータを読み書き裏でFileSystem実装をロードして使い分け

異なるデータストアへのアクセス

$ hadoop fs -cp file:///a/b hdfs://ns/c/d $ hadoop fs -cp hdfs://ns/c/d s3a://bc/e/f

オブジェクトをファイル⾵に読み書き

Amazon S3へのアクセス

scala> val p = new Path("s3a://iwasakims-test/foo.txt") scala> val s3 = p.getFileSystem(conf) s3: org.apache.hadoop.fs.FileSystem = S3AFileSystem{uri=s3a://iwasakims-test, workingDir=s3a://iwasakims-test/user/iwasakims, inputPolicy=normal, ... scala> val os = s3.create(p) os: org.apache.hadoop.fs.FSDataOutputStream = FSDataOutputStream{wrappedStream=S3ABlockOutputStream{WriteOperationHelper {bucket=iwasakims-test}, blockSize=67108864, activeBlock=FileBlock{index=1, destFile=/tmp/hadoop-iwasakims/s3a/s3ablock-0001-6278414896901011411.tmp, state=Writing, dataSize=0, limit=67108864}}} scala> val buf ="foo".getBytes(Charset.forName("UTF-8")) scala> os.write(buf, 0, buf.length) scala> os.close()

対応していない(できない)機能もある例外 or 何も起きない(noop)

Limitations

scala> val os = s3.append(p) java.lang.UnsupportedOperationException: Append is not supported by S3AFileSystem ... scala> s3.setPermission(p, new FsPermission("0775"))

scala> val is = s3.open(p) scala> val buf = ByteBuffer.allocate(3) scala> is.read(buf) java.lang.UnsupportedOperationException: Byte-buffer read unsupported by input stream ...

Google Cloud Storagehttps://github.com/GoogleCloudPlatform/bigdata-interop/tree/master/gcs

Oracle Cloud Infrastructurehttps://github.com/oracle/oci-hdfs-connector

Ignite File Systemhttps://github.com/apache/ignite/tree/master/modules/hadoop

サードパーティ製のFileSystem実装

.jarにclasspathを通すConfigurationでschemeとクラス名を対応づけ

FileSystem実装の追加

<property> <name>fs.foobar.impl</name> <value>org.example.FooBarFileSystem</value> </property>

$ tail META-INF/services/org.apache.hadoop.fs.FileSystem org.example.FooBarFileSystem

もしくはjava.util.ServiceLoaderを使う# 使ってなくてもロードされるのが難点

デフォルト(pathのみ指定)時にどれを使うかは設定ファイル(core-site.xml)上の指定で決まる

fs.defaultFS

<property> <name>fs.defaultFS</name> <value>hdfs://mycluster/</value> </property>

FileSystem APIをユーザ向けに整理する意図意図通りに普及/移⾏していない...

FileContextのドキュメントがないできることに(ほとんど)差はないHadoopのコード⾃体が両⽅使っている

FileSystem実装を作るときにケアする必要あり

FileContext API (HADOOP-4952)

FileContext ctx = FileContext.getFileContext(uri); FSDataInputStream is = ctx.create(path, ...); ctx.setWorkingDir(path); FSDataInputStream os = ctx.open(path, ...);

FileContext APIのためのものユーザに⾒せないバックエンド部分FileSystemのベースクラスではないFileSystem実装をwrapするパターンが多い

see o.a.h.fs.DelegateToFileSystem

AbstractFileSystem?

<property> <name>fs.s3a.impl</name> <value>org.apache.hadoop.fs.s3a.S3AFileSystem</value> </property> <property> <name>fs.AbstractFileSystem.s3a.impl</name> <value>org.apache.hadoop.fs.s3a.S3A</value> </property>

まとめ

FileSystem APIでデータを読み書きできるFileSystem APIはHDFSの機能を抽象化したものHDFS以外のデータストアにも透過的にアクセス⾃分で実装を作ることもできる

まとめ

おわり

HadoopのファイルシステムAPI⼊⾨ - OSPNHadoopが提供するFileSystem APIを解説...

Documents

Transcript of HadoopのファイルシステムAPI⼊⾨ - OSPNHadoopが提供するFileSystem APIを解説...

Grammar Workouts! のねらいです。Grammar Workouts! は、「英語が嫌い」「英語が苦手」という学生の皆さんが、 基礎レベルから英文法を学習し直すためのドリル形式のテキストです。「使え

デジタル 協力のための ロードマップ...2 ROADMAP FOR DIGITAL COOPERATION世界が新型コロナウイルス感染症の大流行に立ち 向かっている中で、その脅威に挑み、人々のつなが

azul 2020 match 0922 last...A 11 MF Matchday Programme vol.08 DAZNへの加入金の一部がチームの強化費として使われます。あなたの加入がクラブの 血となり肉となる!

Title 理系の誰が高収入なのか? : SSM2005 データにも とづ … · 2016. 3. 18. · 京都社会学年報 第23号（2015） 35 理系の誰が高収入なのか？

GERD(胃食道逆流症の最新の知見 と診療PPIの方が効果が強く、長期的使用しても 作用の減弱が認められない為、第一選択となっている。PPIの常用

Dell EMC Avamar for VMware...既存のスナップショットが原因でリストアが失敗する.....154 物理RDM ディスクがかかわるとき、新しい仮想マシンへのリストアができない..

事業会社との提携 2019 6 27 1 - Minister of Economy, Trade ......口腔ケアが難しいのは、口腔内が見えず暗黙知の領域になっているからと言える。ヘルステックが進む中で、歯の健康が置き去りにされている。歯磨きの

TREND-ONE システムチェンジ時のデータ移行の手順...－5－ TREND-ONE システムチェンジ時のデータ移行の手順 ユーザーが編集した計算書フォーム（フリーフォーマット）がある場合は、次の画面が表示されます。

FRAME ALTERATION L穴追加工 その他特殊追加工 ...3フラットな面が下と右にきます 1の例 2の例 3の例 ＊L型の例 E縦長でフラット面があるフレームの場合、1が優先されます。

サプライチェーンにおけるデータの導入 オランダでのThema … pdfs/Supply chain...Bol.com: 2019年8月～10月 コードが書籍にすることは？Themaは、その本が何についての本な

ゴム用ブルーム防止剤...BLOOM STOPPER-HR NR、IR、 SBR、CRな ど プロセスオイル、可塑剤な どの有機物のブルームに 効果があります。 硬度が下がるので、必

創刊号 vol.1 TIMES 2015...HP E-mail renkei@harajuku-reha.com 宿リハビリテーション病院には、急性期病 院での病気やけがの治療が一段落し、病 状の安定した患者様が安心してリハビリテーション

OFFICIAL INFORMATION · スターバックスが 附属病院にオープン ローソンが 甲府東キャンパス内に オープン 合格者・保護者の 皆様へ 2月14日、コーヒーショップのスターバッ

日本語アクセントの再建 - ls-japan.orgがそれぞれ一つの「類」をなし，「風，酒，…」と「犬，色，…」がそれぞれの 「所属語彙」となる（拙論2000

京図ものがたり26-1-8 cs4Title 京図ものがたり26-1-8_cs4 Created Date 8/15/2014 4:40:53 PM

Isotope News 2017年4月号 No移動の連鎖が起こる結果，細胞外側のH＋濃度が高 くても一方向性の輸送が達成され，10－1 秒の時間 領域で元の状態に戻るまでに1

stats-seminar jspp2013 takahashi2005） • ただし，N = 100程度の標本サイズがあ れば，分析そのものは可能 • 標本サイズが小さい場合には，検出力が

PayPal SOAP API の基本...PayPalが決定した一部のスキーマ設計は、企業が独自のアプリケーションを設計する方法に影響を与える可能性があります。

Amazon Simple Queue Service - 開発者ガイドカーと互換性があります。API (JMS など) や、プロトコル (AMQP、MQTT、OpenWire、STOMP など) と の互換性に依存する既存のメッセージブローカーからのアプリケーション移行に

消費税の逆進性とその緩和策 - Board of Audit · この消費税の負担率をグラフにしたものが図1 である。第 分位の負担率が4.0％であるのに対して，

Grammar Workouts! のねらいです。Grammar Workouts! は、「英語が嫌い」「英語が苦手」という学生の皆さんが、基礎レベルから英文法を学習し直すためのドリル形式のテキストです。「使え

デジタル協力のためのロードマップ...2 ROADMAP FOR DIGITAL COOPERATION世界が新型コロナウイルス感染症の大流行に立ち向かっている中で、その脅威に挑み、人々のつなが

azul 2020 match 0922 last...A 11 MF Matchday Programme vol.08 DAZNへの加入金の一部がチームの強化費として使われます。あなたの加入がクラブの血となり肉となる!

Title 理系の誰が高収入なのか? : SSM2005 データにもとづ … · 2016. 3. 18. · 京都社会学年報第23号（2015） 35 理系の誰が高収入なのか？

GERD(胃食道逆流症の最新の知見と診療PPIの方が効果が強く、長期的使用しても作用の減弱が認められない為、第一選択となっている。PPIの常用

TREND-ONE システムチェンジ時のデータ移行の手順...－5－ TREND-ONE システムチェンジ時のデータ移行の手順ユーザーが編集した計算書フォーム（フリーフォーマット）がある場合は、次の画面が表示されます。

FRAME ALTERATION L穴追加工その他特殊追加工 ...3フラットな面が下と右にきます 1の例 2の例 3の例＊L型の例 E縦長でフラット面があるフレームの場合、1が優先されます。

サプライチェーンにおけるデータの導入オランダでのThema … pdfs/Supply chain...Bol.com: 2019年8月～10月コードが書籍にすることは？Themaは、その本が何についての本な

ゴム用ブルーム防止剤...BLOOM STOPPER-HR NR、IR、 SBR、CRなどプロセスオイル、可塑剤などの有機物のブルームに効果があります。硬度が下がるので、必

創刊号 vol.1 TIMES 2015...HP E-mail renkei@harajuku-reha.com 宿リハビリテーション病院には、急性期病院での病気やけがの治療が一段落し、病状の安定した患者様が安心してリハビリテーション

OFFICIAL INFORMATION · スターバックスが附属病院にオープンローソンが甲府東キャンパス内にオープン合格者・保護者の皆様へ 2月14日、コーヒーショップのスターバッ

日本語アクセントの再建 - ls-japan.orgがそれぞれ一つの「類」をなし，「風，酒，…」と「犬，色，…」がそれぞれの「所属語彙」となる（拙論2000

Isotope News 2017年4月号 No移動の連鎖が起こる結果，細胞外側のH＋濃度が高くても一方向性の輸送が達成され，10－1 秒の時間領域で元の状態に戻るまでに1

stats-seminar jspp2013 takahashi2005） • ただし，N = 100程度の標本サイズがあれば，分析そのものは可能 • 標本サイズが小さい場合には，検出力が

Amazon Simple Queue Service - 開発者ガイドカーと互換性があります。API (JMS など) や、プロトコル (AMQP、MQTT、OpenWire、STOMP など) との互換性に依存する既存のメッセージブローカーからのアプリケーション移行に

消費税の逆進性とその緩和策 - Board of Audit · この消費税の負担率をグラフにしたものが図1 である。第分位の負担率が4.0％であるのに対して，