서서히 그러다 갑자기 :: [Spark] dataframe을 CSV로 저장하기

[Spark] dataframe을 CSV로 저장하기

카테고리 없음 2018. 4. 19. 17:14

Spark에서 dataframe의 내용을 CSV 파일로 저장하기

val select_SQL = s"""
    select dt
        , query
     ...
  """

logger.info("select SQL : " + select_SQL)
val df = spark.sql(select_SQL1)

logger.info("#row : " + df.count())
df.coalesce(1)
  .write.mode(SaveMode.Overwrite)
  .option("header", "true")
  .format("com.databricks.spark.csv")
  .save("output_folder")

spark-shell에서 실행하더라도 file을 HDFS(/home/{user}/output_folder)에 만들어 진다.

참고

http://americanopeople.tistory.com/93

https://stackoverflow.com/questions/49102292/file-already-exists-error-writing-new-files-from-dataframe

Posted by poterius

,


	by poterius

카테고리

분류 전체보기 (18)

data engineering (7)

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

Total
Today
Yesterday

tistory

티스토리 가입하기!

티스토리툴바