서서히 그러다 갑자기

sbt로 spark job 빌드

data engineering 2019. 8. 12. 13:12

deduplicate: different file contents found in the following:

build.sbt

assemblyMergeStrategy in assembly := {
  //case PathList("META-INF", xs @ _*) => MergeStrategy.discard
  case PathList("META-INF", xs @ _*) => MergeStrategy.discard
  case x => MergeStrategy.last
}

reference: http://queirozf.com/entries/creating-scala-fat-jars-for-spark-on-sbt-with-sbt-assembly-plugin

Creating Scala Fat Jars for Spark on SBT with sbt-assembly Plugin

Technology reference and information archive.

queirozf.com

'data engineering' 카테고리의 다른 글

Hive table partition의 조각 모음 (concatenate) (0)	2021.07.31
쉡스크립트에서 문자열을 배열로 바꾸고 n번째 항목 가져오기 (0)	2021.07.21
Hive 테이블에서 각 partition의 파일 위치(location) 뽑아보기 (0)	2021.07.21
zeppelin 에서 spark으로 데이터 조회할 때 테이블 뷰 (0)	2019.08.01
Spark dataframe 여러 값으로 구성된 컬럼에서 짝을 맞춰 뽑아오기 (0)	2019.06.21

Posted by poterius

,

zeppelin 에서 spark으로 데이터 조회할 때 테이블 뷰

data engineering 2019. 8. 1. 17:05

val df = spark.table("search.impression_log").
filter(s"dt='20190730' and hour='20'").

df.createTempView("abc")

%spark.sql
select * from abc
limit 100

'data engineering' 카테고리의 다른 글

Hive table partition의 조각 모음 (concatenate) (0)	2021.07.31
쉡스크립트에서 문자열을 배열로 바꾸고 n번째 항목 가져오기 (0)	2021.07.21
Hive 테이블에서 각 partition의 파일 위치(location) 뽑아보기 (0)	2021.07.21
sbt로 spark job 빌드 (0)	2019.08.12
Spark dataframe 여러 값으로 구성된 컬럼에서 짝을 맞춰 뽑아오기 (0)	2019.06.21

Posted by poterius

,

Spark dataframe 여러 값으로 구성된 컬럼에서 짝을 맞춰 뽑아오기

data engineering 2019. 6. 21. 14:28

다음과 같은 테이블에서

log_id|itemid | is_valid | price

100|1,2,3,...| Y,Y,N,... | 10,20,10,...

다음과 같이 짝을 맞춰 처리하려면 변환이 필요하다.

(1,Y,10)

(2,Y,20)

(3,N,10)

...

val zip = udf((id: Seq[String], is_valid: Seq[String], price: Seq[String])  => {
        id.indices.map(i=> (id(i), is_valid(i), price(i)))
    }
)

var selected_df = source_df.withColumn("vars", explode(zip(split($"id", ","), split($"is_valid", ","), split($"price", ",")  ))).select(
        $"log_id", $"timestamp", // column from source_df
        $"vars._1".alias("id"), 
        $"vars._2".alias("is_valid"), 
        $"vars._3".alias("price")       
        )

'data engineering' 카테고리의 다른 글

Hive table partition의 조각 모음 (concatenate) (0)	2021.07.31
쉡스크립트에서 문자열을 배열로 바꾸고 n번째 항목 가져오기 (0)	2021.07.21
Hive 테이블에서 각 partition의 파일 위치(location) 뽑아보기 (0)	2021.07.21
sbt로 spark job 빌드 (0)	2019.08.12
zeppelin 에서 spark으로 데이터 조회할 때 테이블 뷰 (0)	2019.08.01

Posted by poterius

,

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

서서히 그러다 갑자기

sbt로 spark job 빌드

'data engineering' 카테고리의 다른 글

zeppelin 에서 spark으로 데이터 조회할 때 테이블 뷰

'data engineering' 카테고리의 다른 글

Spark dataframe 여러 값으로 구성된 컬럼에서 짝을 맞춰 뽑아오기

'data engineering' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바


	by poterius