Branch: ozone-0.4

HADOOP-10388

HADOOP-11671

HADOOP-11890

HADOOP-12499

HADOOP-12756

HADOOP-12930

HADOOP-13037

HADOOP-13070

HADOOP-13128

HADOOP-13341

HADOOP-13345

HADOOP-15407

HADOOP-15461

HADOOP-15566-OpenTracing

HADOOP-17773

HADOOP-17800

HADOOP-18088-branch-2.10

HADOOP-18127

HADOOP-19236

HADOOP-19236-01

HADOOP-19236-02

HADOOP-19236-core-v0.1

HADOOP-19236-original

HADOOP-19238

HADOOP-19256-s3-conditional-writes

HADOOP-19343

HADOOP-6659

HADOOP-6671

HADOOP-6685

HDDS-1564

HDDS-1880-Decom

HDDS-2067

HDDS-2071

HDDS-48

HDFS-10285

HDFS-10467

HDFS-1052

HDFS-1073

HDFS-11118

HDFS-12090

HDFS-12943

HDFS-12996

HDFS-1312

HDFS-13532

HDFS-13572

HDFS-13891

HDFS-14978_ec_conversion

HDFS-15714

HDFS-1623

HDFS-17384

HDFS-17385

HDFS-17531

HDFS-17564

HDFS-2006

HDFS-2139

HDFS-265

HDFS-2802

HDFS-2832

HDFS-3042

HDFS-3077

HDFS-3092

HDFS-3140

HDFS-326

HDFS-347

HDFS-4685

HDFS-4949

HDFS-5442

HDFS-5535

HDFS-5698

HDFS-6581

HDFS-6584

HDFS-6994

HDFS-7240

HDFS-7285

HDFS-7285-REBASE

HDFS-7285-backup

HDFS-7836

HDFS-7966

HDFS-8707

HDFS-8966

HDFS-9806

HDFS-9924

HDFS-EC

HEAD

MAPREDUCE-6240-trunk

MAPREDUCE-6608

MR-2454

MR-279

MR-279-merge

MR-279-merge-to-trunk

MR-2841

MR-3902

MR-4327

MR-6749

YARN-1011

YARN-1051

YARN-1197

YARN-2139

YARN-2915

YARN-2928

YARN-321

YARN-321-old

YARN-3368

YARN-3368_branch2

YARN-3409

YARN-3866

YARN-3926

YARN-4752

YARN-4757

YARN-4902

YARN-5085

YARN-5355

YARN-5355_branch2

YARN-5501

YARN-5673

YARN-5734

YARN-5734-branch-2

YARN-5734-branch-3.0

YARN-5881

YARN-5972

YARN-6592

YARN-6828

YARN-7055

YARN-7402

YARN-8006

YARN-8200

YARN-8200.branch3

YARN-8310.branch-3.1

branch-0.1

branch-0.10

branch-0.11

branch-0.12

branch-0.13

branch-0.14

branch-0.15

branch-0.16

branch-0.17

branch-0.18

branch-0.19

branch-0.2

branch-0.20

branch-0.20-append

branch-0.20-security

branch-0.20-security-202

branch-0.20-security-203

branch-0.20-security-204

branch-0.20-security-205

branch-0.20-security-patches

branch-0.20.203

branch-0.20.204

branch-0.20.205

branch-0.21

branch-0.21-old

branch-0.22

branch-0.23

branch-0.23-PB

branch-0.23-PB-merge

branch-0.23-PB-merge2

branch-0.23-PB-merge3

branch-0.23.0

branch-0.23.0-rc0

branch-0.23.1

branch-0.23.10

branch-0.23.11

branch-0.23.2

branch-0.23.3

branch-0.23.4

branch-0.23.5

branch-0.23.6

branch-0.23.7

branch-0.23.8

branch-0.23.9

branch-0.3

branch-0.4

branch-0.5

branch-0.6

branch-0.7

branch-0.8

branch-0.9

branch-1

branch-1-win

branch-1.0

branch-1.0.2

branch-1.1

branch-1.2

branch-2

branch-2-jhung-test

branch-2.0-alpha

branch-2.0.0-alpha

branch-2.0.1-alpha

branch-2.0.2-alpha

branch-2.0.3-alpha

branch-2.0.4-alpha

branch-2.0.5

branch-2.0.5-alpha

branch-2.0.6-alpha

branch-2.1-beta

branch-2.1.0-alpha

branch-2.1.0-beta

branch-2.1.1-beta

branch-2.10

branch-2.10.0

branch-2.10.1

branch-2.10.2

branch-2.2

branch-2.2.0

branch-2.2.1

branch-2.3

branch-2.3.0

branch-2.4

branch-2.4.0

branch-2.4.1

branch-2.5

branch-2.5.0

branch-2.5.1

branch-2.5.2

branch-2.6

branch-2.6.0

branch-2.6.1

branch-2.6.2

branch-2.6.3

branch-2.6.4

branch-2.6.5

branch-2.7

branch-2.7.0

branch-2.7.1

branch-2.7.2

branch-2.7.3

branch-2.7.4

branch-2.7.5

branch-2.7.6

branch-2.7.7

branch-2.8

branch-2.8.0

branch-2.8.1

branch-2.8.2

branch-2.8.3

branch-2.8.4

branch-2.8.5

branch-2.9

branch-2.9.0

branch-2.9.1

branch-2.9.2

branch-3

branch-3.0

branch-3.0.0

branch-3.0.0-alpha1

branch-3.0.0-alpha2

branch-3.0.0-alpha3

branch-3.0.0-alpha4

branch-3.0.0-beta1

branch-3.0.1

branch-3.0.2

branch-3.0.3

branch-3.1

branch-3.1.0

branch-3.1.1

branch-3.1.2

branch-3.1.3

branch-3.1.4

branch-3.2

branch-3.2.0

branch-3.2.1

branch-3.2.2

branch-3.2.3

branch-3.2.4

branch-3.3

branch-3.3.0

branch-3.3.1

branch-3.3.2

branch-3.3.3

branch-3.3.4

branch-3.3.5

branch-3.3.6

branch-3.4

branch-3.4.0

branch-3.4.1

branch-3.4.2

branch-X.Y

branch-trunk-win

branch-yarn-3926

checks2

dependabot/maven/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-shuffle/ch.qos.logback-logback-classic-1.2.0

dependabot/maven/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-shuffle/ch.qos.logback-logback-classic-1.2.13

dependabot/maven/hadoop-maven-plugins/org.apache.maven-maven-core-3.8.1

dependabot/maven/hadoop-project/io.netty-netty-common-4.1.118.Final

dependabot/maven/hadoop-project/io.netty-netty-handler-4.1.118.Final

dependabot/maven/hadoop-project/io.netty-netty-handler-4.1.94.Final

dependabot/maven/hadoop-project/org.apache.avro-avro-1.11.4

dependabot/maven/hadoop-project/org.apache.mina-mina-core-2.0.27

dependabot/maven/hadoop-project/org.eclipse.jetty-jetty-server-10.0.14

dependabot/maven/hadoop-project/org.eclipse.jetty-jetty-server-9.4.55.v20240627

dependabot/maven/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-csi/io.grpc-grpc-protobuf-1.53.0

dependabot/npm_and_yarn/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-applications/hadoop-yarn-applications-catalog/hadoop-yarn-applications-catalog-webapp/jquery-3.5.0

dependabot/npm_and_yarn/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-ui/src/main/webapp/es5-ext-0.10.64

dependabot/npm_and_yarn/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-ui/src/main/webapp/express-4.18.2

dependabot/npm_and_yarn/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-ui/src/main/webapp/express-4.20.0

dependabot/npm_and_yarn/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-ui/src/main/webapp/follow-redirects-1.14.9

dependabot/npm_and_yarn/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-ui/src/main/webapp/follow-redirects-1.15.6

dependabot/npm_and_yarn/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-ui/src/main/webapp/handlebars-3.0.8

dependabot/npm_and_yarn/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-ui/src/main/webapp/ini-1.3.8

dependabot/npm_and_yarn/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-ui/src/main/webapp/select2-4.0.6

dependabot/npm_and_yarn/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-ui/src/main/webapp/websocket-extensions-0.1.4

docker-hadoop-2

docker-hadoop-2.10.2

docker-hadoop-3

docker-hadoop-3.3.6

docker-hadoop-3.4

docker-hadoop-3.4.1

docker-hadoop-runner

docker-hadoop-runner-jdk11

docker-hadoop-runner-jdk11-u2204

docker-hadoop-runner-jdk17-u2204

docker-hadoop-runner-jdk8

docker-hadoop-runner-latest

feature-HADOOP-18028-s3a-prefetch

feature-HADOOP-18028-s3a-prefetch-branch-3.3

feature-HADOOP-18073-s3a-sdk-upgrade

feature-HADOOP-18073-s3a-sdk-upgrade-3.3

feature-HADOOP-18073-sdk-v2-upgrade-3.7-aws

feature-HADOOP-19363-analytics-accelerator-s3

feature-HDFS-8286

feature-YARN-2928

feature-vectored-io

fgl

fs-encryption

gh-pages

new-branch-3.1-03.17.2018

ozone-0.2

ozone-0.3

ozone-0.4

ozone-0.4.1

pre-HADOOP-4687

resource-types

revert-1370-HDFS-14492

revert-1578-HDDS-2222

revert-2059-HDFS-15396

revert-2197-trunk

revert-2453-HADOOP-17371

revert-2605-HDFS-15423

revert-3200-hdfs-15160-320

revert-3484-fix-winutils-typos

revert-3630-HADOOP-17995

revert-3798-HDFS-16384

revert-3998-HDFS-16458

revert-4035-HDFS-16488

revert-4140-HADOOP-18168

revert-4199-HDFS-14750

revert-4901-HDFS-16776

revert-5068-HDFS-16811

revert-5267-fix-the-the-typos

revert-5332-YARN-11041

revert-6042-MAPREDUCE-7453

revert-6537-HADOOP-19071

revert-6664-HADOOP-19071-V3

revert-6764-HDFS-17496

revert-6816-dependabot/maven/hadoop-project/org.apache.derby-derby-10.17.1.0

revert-6960-YARN-11709

revert-7025-distcp-a

revert-7085-HADOOP-19298

revert-7188-HDFS-17640

revert-7294-HADOOP-19236-01

revert-7505-HADOOP-19502

rewrite-junit5-hdfs

saved-branch-3.1-03172018

squashed-YARN-4752

submarine-0.2

submarine-0.2.0

trunk

yahoo-merge

yarn-2877

yarn-4719

yarn-4726

yarn-native-services

title: Spark in Kubernetes with OzoneFS menu: main:

  parent: Recipes

Using Ozone from Apache Spark

This recipe shows how Ozone object store can be used from Spark using:

OzoneFS (Hadoop compatible file system)
Hadoop 2.7 (included in the Spark distribution)
Kubernetes Spark scheduler
Local spark client

Requirements

Download latest Spark and Ozone distribution and extract them. This method is tested with the spark-2.4.0-bin-hadoop2.7 distribution.

You also need the following:

A container repository to push and pull the spark+ozone images. (In this recipe we will use the dockerhub)
A repo/name for the custom containers (in this recipe myrepo/ozone-spark)
A dedicated namespace in kubernetes (we use yournamespace in this recipe)

Create the docker image for drivers

Create the base Spark driver/executor image

First of all create a docker image with the Spark image creator. Execute the following from the Spark distribution

./bin/docker-image-tool.sh -r myrepo -t 2.4.0 build

Note: if you use Minikube add the -m flag to use the docker daemon of the Minikube image:

./bin/docker-image-tool.sh -m -r myrepo -t 2.4.0 build

./bin/docker-image-tool.sh is an official Spark tool to create container images and this step will create multiple Spark container images with the name myrepo/spark. The first container will be used as a base container in the following steps.

Customize the docker image

Create a new directory for customizing the created docker image.

Copy the ozone-site.xml from the cluster:

kubectl cp om-0:/opt/hadoop/etc/hadoop/ozone-site.xml .

And create a custom core-site.xml:

<configuration>
    <property>
        <name>fs.o3fs.impl</name>
        <value>org.apache.hadoop.fs.ozone.BasicOzoneFileSystem</value>
    </property>
</configuration>

Note: You may also use org.apache.hadoop.fs.ozone.OzoneFileSystem without the Basic prefix. The Basic version doesn't support FS statistics and encryption zones but can work together with older hadoop versions.

Copy the ozonefs.jar file from an ozone distribution (use the legacy version!)

kubectl cp om-0:/opt/hadoop/share/ozone/lib/hadoop-ozone-filesystem-lib-legacy-0.4.0-SNAPSHOT.jar .

Create a new Dockerfile and build the image:

FROM myrepo/spark:2.4.0
ADD core-site.xml /opt/hadoop/conf/core-site.xml
ADD ozone-site.xml /opt/hadoop/conf/ozone-site.xml
ENV HADOOP_CONF_DIR=/opt/hadoop/conf
ENV SPARK_EXTRA_CLASSPATH=/opt/hadoop/conf
ADD hadoop-ozone-filesystem-lib-legacy-0.4.0-SNAPSHOT.jar /opt/hadoop-ozone-filesystem-lib-legacy.jar

docker build -t myrepo/spark-ozone

For remote kubernetes cluster you may need to push it:

docker push myrepo/spark-ozone

Create a bucket and identify the ozonefs path

Download any text file and put it to the /tmp/alice.txt first.

kubectl port-forward s3g-0 9878:9878
aws s3api --endpoint http://localhost:9878 create-bucket --bucket=test
aws s3api --endpoint http://localhost:9878 put-object --bucket test --key alice.txt --body /tmp/alice.txt
kubectl exec -it scm-0 ozone s3 path test

The output of the last command is something like this:

Volume name for S3Bucket is : s3asdlkjqiskjdsks
Ozone FileSystem Uri is : o3fs://test.s3asdlkjqiskjdsks

Write down the ozone filesystem uri as it should be used with the spark-submit command.

Create service account to use

kubectl create serviceaccount spark -n yournamespace
kubectl create clusterrolebinding spark-role --clusterrole=edit --serviceaccount=yournamespace:spark --namespace=yournamespace

Execute the job

Execute the following spark-submit command, but change at least the following values:

the kubernetes master url (you can check your ~/.kube/config to find the actual value)
the kubernetes namespace (yournamespace in this example)
serviceAccountName (you can use the spark value if you folllowed the previous steps)
container.image (in this example this is myrepo/spark-ozone. This is pushed to the registry in the previous steps)

location of the input file (o3fs://...), use the string which is identified earlier with the ozone s3 path <bucketname> command

bin/spark-submit \
--master k8s://https://kubernetes:6443 \
--deploy-mode cluster \
--name spark-word-count \
--class org.apache.spark.examples.JavaWordCount \
--conf spark.executor.instances=1 \
--conf spark.kubernetes.namespace=yournamespace \
--conf spark.kubernetes.authenticate.driver.serviceAccountName=spark \
--conf spark.kubernetes.container.image=myrepo/spark-ozone \
--conf spark.kubernetes.container.image.pullPolicy=Always \
--jars /opt/hadoop-ozone-filesystem-lib-legacy.jar \
local:///opt/spark/examples/jars/spark-examples_2.11-2.4.0.jar \
o3fs://bucket.volume/alice.txt

Check the available spark-word-count-... pods with kubectl get pod

Check the output of the calculation with kubectl logs spark-word-count-1549973913699-driver

You should see the output of the wordcount job. For example:

...
name: 8
William: 3
this,': 1
SOUP!': 1
`Silence: 1
`Mine: 1
ordered.: 1
considering: 3
muttering: 3
candle: 2
...

SparkOzoneFSK8S.md 5.9 KB Link permanente Histórico Raw