본문 바로가기

Big Data/Spark

[Spark] Word Count 샘플 (Scala)

[Spark] Word Count 샘플 (Scala)


데이터 분석의 Hello Word라고 할 수 있는 Word Count를 Spark를 사용해서 만들어 보자.

Scala를 사용해 보겠다.


maven에 spark-core를 추가한다. (Scala version에 따라 2.10 or 2.11 중 하나를 선택하면된다)



정말 코드가 간단하다. SparkContext를 만들어서 파일에서 line을 읽고 RDD로 Word Count를 금방 만들어 낸다.


코드다. 정말 쉽다.

flatMap으로 line을 split한다.

map으로 word, 1로 String, Integer 형태로 바꾸고

reduceByKey로 couting한다.

foreach로 console에 출력 (saveAsTextFile로 file로 output할 수 있음)



다한거다. 출력을 하면 아래와 같이 나온다.





'Big Data > Spark' 카테고리의 다른 글

[Spark] Streaming Word Count 샘플 (Scala)  (0) 2016.12.08
[Spark] Spark Standalone 설치  (0) 2016.11.28