spark scala 예제

이 자습서는 Scala와 같은 프로그래밍 언어에 관계없이 스파크 및 스파크 에코시스템에 대한 일반적인 이해를 가정합니다. 아파치 스파크를 신이라면, 추천경로는 위쪽에서 시작하여 아래쪽으로 내려가는 것입니다. 다음 단계는 아파치 스파크가 클러스터에 액세스하는 방법을 알려주는 원하는 스파크 구성으로 스파크 컨텍스트 개체를 만드는 것입니다. 단어 카운트 예제의 아래 코드 줄은 이 작업을 수행합니다 – 스칼라는 유닉스 또는 윈도우 기반 시스템에 설치할 수 있습니다. 다음은 스칼라 버전 2.11.7에 대해 우분투 (14.04)에 설치하는 단계입니다. Java 버전 7로 스칼라 (2.11.7)를 설치하는 단계를 보여주고 있습니다. 스칼라를 설치하기 전에 자바를 설치해야합니다. 최신 버전의 스칼라(2.12.1)도 설치할 수 있습니다. 그런 다음 PySpark 문서에서 이미 다루었던 아파치 스파크의 기본 개념 중 일부를 새로 고치고 스칼라를 사용하여 아파치 스파크에서 기계 학습 모델을 구축했습니다. 당신은 질문이나 의심이있는 경우, 코멘트 섹션에 게시 주시기 바랍니다. MLlib는 스파크의 ML(기계 학습) 라이브러리 구성 요소입니다. MLlib의 목표는 기계 학습을 보다 쉽고 폭넓게 사용할 수 있도록 하는 것입니다.

분류, 회귀, 클러스터링, 협업 필터링, 차원 감소와 같은 인기 있는 학습 알고리즘 및 유틸리티로 구성됩니다. SparkSQL은 SQL을 통해 또는 Hive 쿼리 언어를 통해 데이터 쿼리를 지원하는 Spark 구성 요소입니다. 이 포트는 맵Reduce 대신 스파크 위에서 실행되는 아파치 하이브 포트로 시작되었으며 이제 스파크 스택과 통합됩니다. 다양한 데이터 원본에 대한 지원을 제공할 뿐만 아니라 매우 강력한 도구를 만드는 코드 변환을 사용하여 SQL 쿼리를 가져올 수 있습니다. 다음은 Hive 호환 쿼리의 예입니다: 오늘, 스파크는 아마존, 이베이, 야후와 같은 주요 플레이어에 의해 채택되고있다! 많은 조직에서 수천 개의 노드가 있는 클러스터에서 Spark를 실행합니다. 스파크 FAQ에 따르면 가장 큰 알려진 클러스터에는 8000개 이상의 노드가 있습니다. 사실, 스파크는 주목하고 배울 가치가있는 기술입니다. 좋은 쓰기. 그러나 몇 가지 수정 1) 다른 문이 아니라 식,2) 스칼라 3) 목록에서 변경할 수없는 경우 목록은 파이썬과 달리 균일합니다. 이 예제에서는 로그 파일의 오류 메시지를 검색합니다. 스파크는 컴퓨팅 집약적인 작업에도 사용할 수 있습니다.

이 코드는 원에서 “다트를 던지다”로 π를 추정합니다. 단위 정사각형(0, 0)에서 (1,1))까지 임의의 점을 선택하고 단위 원에서 얼마나 많은 가을을 볼 수 있는지 확인합니다. 분수는 π / 4이어야하므로 이를 사용하여 추정치를 얻습니다. 다음 Spark 클러스터링 자습서에서는 Scala 소스 코드 예제를 통해 Spark 클러스터 기능에 대해 강의할 수 있습니다. val sc = 새로운 SparkContext(“로컬”, “워드 카운트”, “워드 카운트”, “/usr/local/spark”, 전무, Map(), Map()) 아파치 스파크가 스칼라 프로그래밍 언어를 통해 사용됨에 따라 스칼라를 설치하여 독립실행형 모드의 스파크 클러스터 설치를 진행해야 합니다.