Talend Studio で設計したジョブをSparkで動かしたい

Highlighted
Four Stars

Talend Studio で設計したジョブをSparkで動かしたい

  • 目標:Talend Studio で設計したジョブをSparkで動かす
  • 現状:以下2つのジョブを作成したがそれぞれ正常に動かない状態
  • 環境構成:

システム環境

macOS Mojave 10.14.6

java環境

java version "1.8.0_241"

Talend Studio

Talend Cloud Real-Time Big Data Platform(7.2.1)

Hadoop Cluster

Amazon EMR 5.15.0(Hadoop 2.8.3) 

AWS Network

local PCに対してport全開(in/out

 

  • ジョブ①:クラスターのHDFSに対する操作
    • 目的:クラスターのHDFSに書き込むこと。
    • 現状:クラスターのリポジトリを設定して、Studioで認識。実行ボタンを押すと、エラー発生
  • エラーログは添付ファイルにあります。

 

  • ジョブ②:SparkBig Data Batchを動かす
    • 目的:Sparkでジョブを実行できること
    • 現状:クラスターのリポジトリを設定して、Studioで認識。実行ボタンを押すと、エラー発生
  • エラーログは添付ファイルにあります。
  • ※このジョブはマニュアルビデオを一部変更して作成しました
Highlighted
Four Stars

Re: Talend Studio で設計したジョブをSparkで動かしたい

ジョブ②を実行した時に表示されたエラーは下記通りです。

なお、ジョブ①、②にを元投稿にアップロードしました。

※ジョブ内のリンクを全部無効化しましたので、セキュリティー面で問題ありません。

 

エラーログ

失敗2020-03-25 11:11:35

Task 5e79a3b8db994d34de3b78fc/4.9 failed unexpectedly.org.talend.ipaas.rt.flow.controller.impl.FlowExecutionException: Step 2221021a-7d3a-4301-a79f-b9a629c4eb76 failed with code -1 and error Job stopped with errors or unable to run. (check the task execution logs for the error details) at org.talend.ipaas.rt.flow.controller.impl.JobControllerImpl.doRun(JobControllerImpl.java:98) ~[?:?] at org.talend.ipaas.rt.flow.controller.impl.AbstractControllerImpl.lambda$run$0(AbstractControllerImpl.java:106) ~[?:?] at java.lang.Thread.run(Thread.java:748) [?:?]Caused by: java.lang.Exception: Job stopped with errors or unable to run. (check the task execution logs for the error details) ... 3 more
失敗2020-03-25 11:11:35

TalendJob: 'EMR' - Failed with exit code: 1.
失敗2020-03-25 11:11:35

Error initializing SparkContext.org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master. at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.waitForApplication(YarnClientSchedulerBackend.scala:89) at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:63) at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:164) at org.apache.spark.SparkContext.(SparkContext.scala:500) at org.apache.spark.api.java.JavaSparkContext.(JavaSparkContext.scala:58) at aaa.emr_0_1.EMR.runJobInTOS(EMR.java:1501) at aaa.emr_0_1.EMR.main(EMR.java:1394)

2019 GARTNER MAGIC QUADRANT FOR DATA INTEGRATION TOOL

Talend named a Leader.

Get your copy

OPEN STUDIO FOR DATA INTEGRATION

Kickstart your first data integration and ETL projects.

Download now