'spark' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록spark (2)

Leeds Coding

[Spark] #2. 스파크 분산처리 3대 vs 컴퓨터 1대 속도 비교!

이전 글에서 집에 있는 윈도우 컴퓨터 3대에 스파크 클러스터 환경 구축을 완료하였다. (이전 글에서 방법 참고) 분산처리의 효과를 직접 확인해보기 위하여, 3대의 컴퓨터를 연결한 Spark 클러스터와 그냥 1대의 컴퓨터에서 실행한 것의 속도 차이를 비교해보려고 한다. scala 문법은 아직 모르고 PySpark도 설치하지 않았지만, 간단한 scala 명령은 찾아가며 실행할 수 있을 것이기 때문에 spark-shell을 사용하기로 했다. spark-shell을 실행하기 전에, 이전글에서 처럼 컴퓨터 1대를 Master로 구동하고, 다른 컴퓨터 2대를 Worker로 구동해놓은 상태여야 한다. 그리고 클러스터 환경에서 spark-shell을 실행하려면 주의해야 할 점이 있다. 처음에 잘 몰라서 Master로 ..

데이터엔지니어링 2023. 4. 12. 22:02

[Spark] #1. 스파크 윈도우 컴퓨터 3대 설치하여 클러스터 구성!

그동안 머신러닝/딥러닝, 자연어처리 중심으로 인공지능 연구개발을 주로 해왔는데, 시간이 생겨서 미루던 데이터엔지니어링 공부를 시작했다. 여러 기술들 중 분산 처리를 하는 스파크(Spark)를 우선 순위로 잡았다. 아직 스파크에 대해 잘 모르지만, 스파크를 사용해서 분산 처리를 하면 얼마나 시간을 단축할 수 있는지 직접 눈으로 확인하는 작업을 제일 먼저 하고 싶었다.그래서 우선 집에 있는 윈도우 컴퓨터(모두 노트북) 3대에 스파크를 설치하고 1대를 Master로 2대를 Worker로 구동하여 클러스터로 구성하는 작업을 진행했다! 스파크 윈도우 설치 스파크를 윈도우에 설치하는 것을 돕는 유튜브 영상이나 블로그는 잘 찾아보면 어느 정도 있는 것 같아서, 이번 글에서 매우 세부적으로 다루지는 않으려고 한다. 윈..

데이터엔지니어링 2023. 4. 6. 20:41

이전 Prev 1 Next 다음

목록spark (2)

Leeds Coding

티스토리툴바