MPR | rhadoop 예제
155721
single,single-post,postid-155721,single-format-standard,ajax_fade,page_not_loaded,,select-theme-ver-3.2.1,popup-menu-slide-from-left,wpb-js-composer js-comp-ver-4.12,vc_responsive
 

rhadoop 예제

rhadoop 예제

이 인프라를 설정하면 RHadoop을 사용하여 R에서 맵 감소 작업을 작성할 준비가 되었습니다. Jeffrey의 작업장의 마지막 부분은 rmr 패키지에 대한 자습서로, 항공사 출발 및 도착에 대한 대규모 데이터 항공사 데이터 세트를 HDFS로 로드하고 R 기반지도 축소 작업을 사용하여 예정된(주황색) 및 실제(노란색)를 계산하는 예제가 있습니다. ) 지난 10 년 정도 동안 미국에서 총 비행 시간. (공중에서 보낸 실제 시간도 파란색으로 표시됩니다.) 하두프에서 R 작업을 실행할 수 있습니다. 다음은 단어 수에 대한 R Map Reduce 코드를 실행하는 한 가지 예입니다: rmr2를 사용하여 Hadoop에서 R 작업의 더 많은 예는 https://github.com/RevolutionAnalytics/rmr2/blob/master/docs/tutorial.md 및 https://github.com/RevolutionAnalytics/rmr2/archive/master.zip 찾을 수 있습니다. MapReduce및 Hadoop에 대한 문서와 자습서를 읽고 약 2 주 동안 RHadoop와 함께 연주 한 후, 마침내 나는 내 첫 번째 R Hadoop 시스템을 구축하고 성공적으로 그것에 몇 가지 R 예제를 실행했습니다. 여기에서 는 내 경험과 이를 달성하기위한 단계를 공유하고 싶습니다. 바라건대 그것은 쉽게 Hadoop에 새로운 R 사용자에 대 한 RHadoop를 시도 할 수 있습니다. 나는 Mac에서만 이것을 시도했으며 일부 단계는 Windows에서 다를 수 있습니다. 이제 Hadoop에서 R 작업을 실행할 수 있습니다.

아래는 http://www.revolutionanalytics.com/news-events/free-webinars/2013/using-r-with-hadoop/ 제프리 브린 (Jeffrey Breen)이 “Hadoop과 R 사용”프레젠테이션에서 제공하는 단어 계산을위한 R MapReduce 코드의 예입니다. R 함수를 Hadoop과 통합하고 MapReduce 모드에서 실행되는 것을 보기 위해 Hadoop은 R용 스트리밍 API를 지원합니다. 이러한 스트리밍 API는 맵-감소 모드에서 표준 I/O로 액세스하고 작동할 수 있는 모든 스크립트를 실행하는 데 도움이 됩니다. 따라서 R의 경우 R과 함께 수행되는 명시적 클라이언트 측 통합이 없습니다. 다음은 R 및 스트리밍에 대 한 예제: Pingback: 첫 번째 간단한 MapReduce RHadoop에서 예제 🙂 | 1000억 개의 뉴런 빈/하두프 항아리 hadoop-examples-*.jar grep 입력 출력 `dfs[a-z.] +` utL vub를 시작한 후 하눕이 실행되는지 확인합니다. 시작 -all. sh jps. 하두프를 실행한 직후에 바로 이 작업을 수행할 수 있습니다. 하두프를 먼저 실행하려면 하두프 디렉토리로 이동하여 하두롭을 시작해야 합니다.

유형: Ch Hadoop – 1. 1. 2 빈 / 하두프. 그런 다음 단어 수와 같은 몇 가지 예제를 통해 테스트하거나 pi 계산을 수행할 수 있습니다. 데이터를 분석하려면 RHadoop을 사용할 수 있습니다. 예를 들어 Apple Inc의 2012년 매출 $156,508보다 GDP가 큰 국가 수를 확인하려고 합니다. MapReduce 알고리즘에 적합하도록 데이터를 조정해야 합니다. 다음은 데이터 분석에 사용되는 최종 형식입니다: 다음은 rmr 패키지를 사용하고 해당 패키지의 함수를 사용하여 R 및 Hadoop을 통합하는 단계를 보여 주는 예제입니다.

시스템 환경 설정 > 공유 (인터넷 및 네트워크 아래), 서비스 목록에서 “원격 로그인”을 선택합니다. 보안을 강화하려면 라디오 버튼을 “이러한 사용자만”을 누르고 hadoop을 선택할 수 있습니다. Mac에서 현재 Rv3. 0이 있다고 가정합니다. 0. 응용 프로그램에서 R_64bitapp의 이름을 R3으로 바꿉니다. 0. 0_64bit 앱과 R 앱의 이름을 R3로 바꿉니다. 0. 0.

다음으로 R v 2를 설치합니다. 15 . 2 R_64bit.app 및 방금 설치한 R.app의 이름을 바꾸기 전에. rmr2, rhbase 및 rhdfs를 다운로드하고 R에 대한 코드를 실행합니다: 아래 코드에서 첫 번째 인수(10)는 맵 수이고 두 번째는 맵당 샘플 수입니다. 두 번째 인수에 더 큰 값을 설정하여 pi의 더 정확한 값을 얻을 수 있으며, 이 값은 실행하는 데 시간이 더 오래 걸릴 수 있습니다. conf/Hadoop_env.sh에 이 줄을 추가하여 자체 로그인 및 원격 데스크톱을 설정할 수도 있습니다. 좋아, 그래서 지금 당신은 단일 노드의 모드에서 R Hadoop의 자신의 시스템을 설정했습니다. 이제 R. . Hadoop 스트리밍 작업은 R에 의해 알고리즘 맵 감소를 사용하여 데이터 프로세스로 시작됩니다.

No Comments

Sorry, the comment form is closed at this time.