| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- NASDAQ
- 딥러닝
- 바이브코딩
- kaggle
- 분산처리
- 코딩
- 데이터사이언스
- 스칼라
- 머신러닝
- Turing Test
- spark-shell
- 스파크쉘
- 지도학습
- 챗GPT
- 주린이
- 비지도학습
- spark
- 윈도우
- IT #꽃부리 #AI #인공지능 #데이터사이언스
- 생성형AI
- OpenAI
- ChatGPT
- 인공지능
- Spark Standalone
- 주식
- 스파크스탠드얼론
- 강화학습
- 클러스터
- 스파크
- 대시보드
- Today
- Total
목록spark (2)
Leeds Coding
이전 글에서 집에 있는 윈도우 컴퓨터 3대에 스파크 클러스터 환경 구축을 완료하였다. (이전 글에서 방법 참고) 분산처리의 효과를 직접 확인해보기 위하여, 3대의 컴퓨터를 연결한 Spark 클러스터와 그냥 1대의 컴퓨터에서 실행한 것의 속도 차이를 비교해보려고 한다. scala 문법은 아직 모르고 PySpark도 설치하지 않았지만, 간단한 scala 명령은 찾아가며 실행할 수 있을 것이기 때문에 spark-shell을 사용하기로 했다. spark-shell을 실행하기 전에, 이전글에서 처럼 컴퓨터 1대를 Master로 구동하고, 다른 컴퓨터 2대를 Worker로 구동해놓은 상태여야 한다. 그리고 클러스터 환경에서 spark-shell을 실행하려면 주의해야 할 점이 있다. 처음에 잘 몰라서 Master로 ..
그동안 머신러닝/딥러닝, 자연어처리 중심으로 인공지능 연구개발을 주로 해왔는데, 시간이 생겨서 미루던 데이터엔지니어링 공부를 시작했다. 여러 기술들 중 분산 처리를 하는 스파크(Spark)를 우선 순위로 잡았다. 아직 스파크에 대해 잘 모르지만, 스파크를 사용해서 분산 처리를 하면 얼마나 시간을 단축할 수 있는지 직접 눈으로 확인하는 작업을 제일 먼저 하고 싶었다.그래서 우선 집에 있는 윈도우 컴퓨터(모두 노트북) 3대에 스파크를 설치하고 1대를 Master로 2대를 Worker로 구동하여 클러스터로 구성하는 작업을 진행했다! 스파크 윈도우 설치 스파크를 윈도우에 설치하는 것을 돕는 유튜브 영상이나 블로그는 잘 찾아보면 어느 정도 있는 것 같아서, 이번 글에서 매우 세부적으로 다루지는 않으려고 한다. 윈..