본문 바로가기

spark

[Spark] Streaming Word Count 샘플 (Scala) Streaming Word Count 샘플 Spark Streaming 에서 Word Count 샘플 코드를 만들어보자 기존에 배치 프로세싱에서의 Word Counting 참고: http://gyrfalcon.tistory.com/110 Spark Streaming Dependency를 추가한다. Spark core와 동일버젼으로 추가한다. org.apache.spark spark-streaming_2.11 2.0.1 인풋 소스로 여러 다양한 방법이 있겠지만 가장 기본이 되는 Socket text 방식으로 text를 입력받는 방식을 사용한다. StreamingContext 으로 Stream Spark Context를 생성한다. 이때 시간 interval을 입력해야하는데 Spark Streaming은 일정.. 더보기
[Spark] Spark Standalone 설치 Spark Standalone 설치 1. Spark Downloadhttps://spark.apache.org/downloads.html 에서 2.0.1을 다운받는다. PreBuilt for Hadoop으로 선택하고 받아 압출을 풀면 된다. 2. Master 실행다운받은 zip파일을 압출을 풀고 sbin/start-master.sh 를 실행하면 master가 실행된다. 데몬으로 백그라운드로 돌아가기 때문에 터미널을 그대로 사용하면 된다. Spark는 기본 WEB UI를 제공하기 때문에 정상적으로 실행됬는디 localhost:8080 에서 확인하자. 현재 Worker가 등록안되어 있기 때문에 아래 와같이 나타난다. 3. Worker 실행 실행한 Master에 Worker를 등록한다. 현재 테스트로 동일노드.. 더보기
[Spark] Word Count 샘플 (Scala) [Spark] Word Count 샘플 (Scala) 데이터 분석의 Hello Word라고 할 수 있는 Word Count를 Spark를 사용해서 만들어 보자.Scala를 사용해 보겠다. maven에 spark-core를 추가한다. (Scala version에 따라 2.10 or 2.11 중 하나를 선택하면된다) org.apache.spark spark-core_2.11 2.0.1 정말 코드가 간단하다. SparkContext를 만들어서 파일에서 line을 읽고 RDD로 Word Count를 금방 만들어 낸다. 코드다. 정말 쉽다.flatMap으로 line을 split한다.map으로 word, 1로 String, Integer 형태로 바꾸고reduceByKey로 couting한다.foreach로 cons.. 더보기