Spark에서 dataframe의 내용을 CSV 파일로 저장하기


val select_SQL = s"""

select dt
, query

...
"""

logger.info("select SQL : " + select_SQL)
val df = spark.sql(select_SQL1)

logger.info("#row : " + df.count())
df.coalesce(1)
.write.mode(SaveMode.Overwrite)
.option("header", "true")
.format("com.databricks.spark.csv")

.save("output_folder")


spark-shell에서 실행하더라도 file을 HDFS(/home/{user}/output_folder)에 만들어 진다. 



참고

http://americanopeople.tistory.com/93

https://stackoverflow.com/questions/49102292/file-already-exists-error-writing-new-files-from-dataframe

Posted by poterius
,