Home » Blog » Arhiva » Volumul 1 » Numărul 2 » Utilizarea limbajului de programare R în știința datelor cu RStudio

Utilizarea limbajului de programare R în știința datelor cu RStudio

Irizarry, Rafael A. (2022), Utilizarea limbajului de programare R în știința datelor cu RStudio, IT & C, 1:2, 49-62, Traducere și adaptare independente: Nicolae SfetcuIrizarry, Rafael A. (2022), Utilizarea limbajului de programare R în știința datelor cu RStudio, IT & C, 1:2, 49-62, Traducere și adaptare independente: Nicolae Sfetcu, https://www.internetmobile.ro/utilizarea-limbajului-de-programare-r-in-stiinta-datelor-cu-rstudio/

 

Rezumat

R nu este un limbaj de programare precum C sau Java. Nu a fost creat de inginerii software pentru dezvoltarea de software. În schimb, a fost dezvoltat de statisticieni ca un mediu interactiv pentru analiza datelor. Cu toate acestea, ca și în alte limbaje de programare, vă puteți salva munca folosind scripturi care pot fi executate cu ușurință în orice moment. Aceste scripturi servesc ca o înregistrare a analizei pe care le-ați efectuat, o caracteristică cheie care facilitează munca reproductibilă. Dacă sunteți un programator expert, nu trebuie să vă așteptați ca R să respecte convențiile cu care sunteți obișnuit, deoarece veți fi dezamăgiți. Dacă aveți răbdare, veți ajunge să apreciați puterea inegalabilă a lui R atunci când vine vorba de analiza datelor și, în special, de vizualizarea datelor.

RStudio este util pentru proiectele de știință a datelor. Nu numai că oferă un editor pentru a crea și edita scripturile, ci oferă și multe alte instrumente utile.

 

Cuvinte cheie: limbajul de programare R, știința datelor, RStudio

 

Abstract

R is not a programming language like C or Java. It was not created by software engineers for software development. Instead, it was developed by statisticians as an interactive environment for data analysis. However, as with other programming languages, you can save your work using scripts that can be easily executed at any time. These scripts serve as a record of the analysis you performed, a key feature that facilitates reproducible work. If you’re an expert programmer, don’t expect R to follow the conventions you’re used to, because you’ll be disappointed. If you’re patient, you’ll come to appreciate R’s unmatched power when it comes to data analysis, and especially data visualization.

RStudio is useful for data science projects. Not only does it provide an editor to create and edit scripts, it also provides many other useful tools.

 

Keywords: R programming language, data science, RStudio

 

IT & C, Volumul 1, Numărul 2, Decembrie 2022, pp. 49-62
ISSN 2821 – 8469, ISSN – L 2821 – 8469
URL: https://www.internetmobile.ro/utilizarea-limbajului-de-programare-r-in-stiinta-datelor-cu-rstudio/
© 2022 Nicolae Sfetcu. Responsabilitatea conținutului, interpretărilor și opiniilor exprimate revine exclusiv autorilor. Responsabilitatea traducerii revine translatorului. Licența CC BY-NC-SA 4.0.

 

Creative Commons CC BY 4.0Acesta este un articol cu Acces Deschis distribuit în conformitate cu termenii licenței de atribuire Creative Commons CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/), care permite utilizarea, distribuirea și reproducerea fără restricții pe orice mediu, cu condiția ca lucrarea originală să fie citată corect.

This is an Open Access article distributed under the terms of the Creative Commons Attribution License CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

 

Utilizarea limbajului de programare R în știința datelor cu RStudio

Rafael A. Irizarry

 

De ce R?

R nu este un limbaj de programare precum C sau Java. Nu a fost creat de inginerii software pentru dezvoltarea de software. În schimb, a fost dezvoltat de statisticieni ca un mediu interactiv pentru analiza datelor. Puteți citi istoricul complet în lucrarea A Brief History of S (1). Interactivitatea este o caracteristică indispensabilă în știința datelor deoarece, după cum veți afla în curând, capacitatea de a explora rapid datele este o necesitate pentru succesul în acest domeniu. Cu toate acestea, ca și în alte limbaje de programare, vă puteți salva munca folosind scripturi care pot fi executate cu ușurință în orice moment. Aceste scripturi servesc ca o înregistrare a analizei pe care le-ați efectuat, o caracteristică cheie care facilitează munca reproductibilă. Dacă sunteți un programator expert, nu trebuie să vă așteptați ca R să respecte convențiile cu care sunteți obișnuit, deoarece veți fi dezamăgiți. Dacă aveți răbdare, veți ajunge să apreciați puterea inegalabilă a lui R atunci când vine vorba de analiza datelor și, în special, de vizualizarea datelor.

Alte caracteristici atractive ale lui R sunt:

  1. R este gratuit și open source (2).
  2. Funcționează pe toate platformele majore: Windows, Mac Os, UNIX/Linux.
  3. Scripturile și obiectele de date pot fi partajate fără probleme pe platforme.
  4. Există o comunitate mare, în creștere și activă de utilizatori R și, ca urmare, există numeroase resurse pentru a învăța și a pune întrebări (3,4,5).
  5. Este ușor pentru alții să contribuie cu suplimente care le permit dezvoltatorilor să partajeze implementări software ale noilor metodologii de știință a datelor. Acest lucru oferă utilizatorilor R acces timpuriu la cele mai recente metode și la instrumente care sunt dezvoltate pentru o mare varietate de discipline, inclusiv ecologie, biologie moleculară, științe sociale și geografie, doar pentru a numi câteva exemple.

Consola R

Analiza interactivă a datelor are loc de obicei pe consola R care execută comenzi pe măsură ce le tastați. Există mai multe modalități de a obține acces la o consolă R. O modalitate este să porniți pur și simplu R pe computer. Consola arată cam așa:

Ca exemplu rapid, încercați să utilizați consola pentru a calcula un bacșiș de 15% pentru o masă care a costat 19,71 USD:

0.15 * 19.71

#> [1] 2.96

Rețineți că în acest articol casetele gri sunt folosite pentru a afișa codul R introdus în consola R. Simbolul #> este folosit pentru a indica ceea ce iese la consola R.

Scripturi

Unul dintre marile avantaje ale lui R față de software-ul de analiză point-and-click este că vă puteți salva munca sub formă de scripturi. Puteți edita și salva aceste scripturi folosind un editor de text. Materialul din această carte a fost dezvoltat folosind mediul de dezvoltare interactiv integrat (IDE) RStudio (6). RStudio include un editor cu multe caracteristici specifice R, o consolă pentru a executa codul și alte panouri utile, inclusiv unul pentru a afișa cifre.

Majoritatea consolelor R bazate pe web oferă, de asemenea, un panou pentru editarea scripturilor, dar nu toate vă permit să salvați scripturile pentru o utilizare ulterioară.

Toate scripturile R utilizate pentru a genera această carte pot fi găsite pe GitHub (7).

RStudio

RStudio este util pentru proiectele de știință a datelor. Nu numai că oferă un editor pentru a ne crea și edita scripturile, ci oferă și multe alte instrumente utile.

Panourile

Când porniți RStudio pentru prima dată, veți vedea trei panouri. Panoul din stânga arată consola R. În partea dreaptă, panoul de sus include file precum Environment și History, în timp ce panoul de jos arată cinci file: File, Plots, Packages, Help și Viewer (aceste file se pot modifica în versiunile noi). Puteți face clic pe fiecare filă pentru a vă deplasa printre diferitele caracteristici.

Pentru a începe un nou script, puteți face clic pe File, apoi New File, apoi R Script.

Aceasta pornește un nou panou din stânga și aici puteți începe să vă scrieți scriptul.

Combinații de taste

Multe sarcini pe care le executăm cu mouse-ul pot fi realizate cu o combinație de taste. Aceste versiuni de tastatură pentru realizarea sarcinilor sunt denumite key bindings. De exemplu, tocmai am arătat cum să folosiți mouse-ul pentru a porni un nou script, dar puteți utiliza și o combinație de taste: Ctrl+Shift+N pe Windows și comandă+shift+N pe Mac.

Deși aici arătăm cum să se folosească și mouse-ul, vă recomandăm să memorați combinațiile de taste pentru operațiunile pe care le utilizați cel mai mult. RStudio oferă o foaie de note cu referințe rapide utilă cu cele mai utilizate comenzi. O puteți obține direct de la RStudio:

S-ar putea să doriți să păstrați aceasta la îndemână, astfel încât să puteți căuta combinații de taste atunci când vă aflați în situația de a efectua clicuri repetitive.

Rularea comenzilor în timpul editării scripturilor

Există multe editoare special create pentru codare. Acestea sunt utile deoarece culoarea și indentarea sunt adăugate automat pentru a face codul mai ușor de citit. RStudio este unul dintre acești editori și a fost dezvoltat special pentru R, dar este foarte util și pentru limbajul de programare Python. Unul dintre principalele avantaje oferite de RStudio față de alți editori este că ne putem testa cu ușurință codul pe măsură ce ne edităm scripturile. Mai jos arătăm un exemplu.

Să începem prin a deschide un nou script așa cum am făcut înainte. Un pas următor este să dai un nume scriptului. Putem face acest lucru prin intermediul editorului salvând noul script fără nume. Pentru a face acest lucru, faceți clic pe pictograma de salvare sau utilizați combinarea tastelor Ctrl+S pe Windows și command+S pe Mac.

Când cereți ca documentul să fie salvat pentru prima dată, RStudio vă va solicita un nume. O convenție bună este să folosiți un nume descriptiv, cu litere mici, fără spații, doar cratime pentru a separa cuvintele, iar apoi urmat de sufixul .R. Vom numi acest script my-first-script.R.

Acum suntem gata să începem editarea primului nostru script. Primele linii de cod dintr-un script R sunt dedicate încărcării bibliotecilor pe care le vom folosi. O altă caracteristică utilă a RStudio este că, odată ce introducem library(), începe să completeze automat bibliotecile pe care le-am instalat. Rețineți ce se întâmplă când introducem library(ti):

O altă caracteristică pe care poate ați observat-o este că atunci când scrieți library( a doua paranteză este adăugată automat. Acest lucru vă va ajuta să evitați una dintre cele mai frecvente erori de codare: uitarea de a închide o paranteză.

Acum putem continua să scriem cod. De exemplu, vom face un grafic care să arate totalul crimelor în raport cu totalul populației în funcție de stat. După ce ați terminat de scris codul necesar pentru a realiza acest plot, îl puteți încerca executând codul. Pentru a face acest lucru, faceți clic pe butonul Run din partea dreaptă sus a panoului de editare. De asemenea, puteți utiliza combinarea tastelor: Ctrl+Shift+Enter pe Windows sau command+shift+return pe Mac.

Odată ce rulați codul, îl veți vedea că apare în consola R și, în acest caz, graficul generat apare în consola ploturilor. Rețineți că consola ploturilor are o interfață utilă care vă permite să faceți clic înapoi și înainte pe diferite ploturi, să măriți plotul sau să salvați ploturile ca fișiere.

Pentru a rula o linie la un moment dat în loc de întregul script, puteți utiliza Control-Enter pe Windows și command-return pe Mac.

Modificarea opțiunilor globale

Puteți schimba destul de mult aspectul și funcționalitatea lui RStudio.

Pentru a schimba opțiunile globale, faceți clic pe Tools, apoi pe Global Options….

Ca exemplu, vă arătăm cum să faceți o schimbare pe care o recomandăm. Aceasta este pentru a schimba Save workspace to .RData on exit to Never în Never și debifați Restore .RData into workspace at start. În mod implicit, când ieșiți din R salvați toate obiectele pe care le-ați creat într-un fișier numit .RData. Acest lucru se face astfel încât atunci când reporniți sesiunea în același folder, va încărca aceste obiecte. Constatăm că acest lucru provoacă confuzie mai ales atunci când partajăm codul cu colegii și presupunem că au acest fișier .RData. Pentru a modifica aceste opțiuni, faceți setările generale să arate astfel:

Instalarea pachetelor R

Funcționalitatea oferită de o nouă instalare a lui R este doar o mică parte din ceea ce este posibil. De fapt, ne referim la ceea ce obțineți după prima instalare ca R de bază. Funcționalitatea suplimentară provine din suplimentele disponibile de la dezvoltatori. În prezent, există sute dintre acestea disponibile de la CRAN și multe altele partajate prin alte depozite, cum ar fi GitHub. Cu toate acestea, deoarece nu toată lumea are nevoie de toate funcționalitățile disponibile, R pune la dispoziție diferite componente prin intermediul pachetelor. R ușurează instalarea pachetelor din R. De exemplu, pentru a instala pachetul dslabs, pe care îl folosim pentru a partaja seturi de date și cod, ar trebui să tastați:

install.packages(„dslabs”)

În RStudio, puteți naviga la fila Tools și selectați pachetele de instalare. Apoi puteți încărca pachetul în sesiunile R folosind funcția de bibliotecă:

library(dslabs)

Putem încărca pachete fără a le instala. Acest lucru se datorează faptului că odată ce instalați un pachet, acesta rămâne instalat și trebuie doar încărcat cu bibliotecă. Pachetul rămâne încărcat până când ieșim din sesiunea R. Dacă încercați să încărcați un pachet și obțineți o eroare, probabil că trebuie să îl instalați mai întâi.

Putem instala mai mult de un pachet simultan, introducând un vector de caractere la această funcție:

install.packages(c(„tidyverse”, „dslabs”))

Rețineți că instalarea tidyverse instalează de fapt mai multe pachete. Acest lucru se întâmplă de obicei atunci când un pachet are dependențe sau folosește funcții din alte pachete. Când încărcați un pachet folosind bibliotecă, încărcați și dependențele acestuia.

Odată ce pachetele sunt instalate, le puteți încărca în R și nu trebuie să le instalați din nou, cu excepția cazului în care instalați o versiune nouă de R. Rețineți că pachetele sunt instalate în R, nu în RStudio.

Este util să păstrați o listă cu toate pachetele de care aveți nevoie pentru munca dvs. într-un script, deoarece, dacă trebuie să efectuați o nouă instalare a lui R, puteți să reinstalați toate pachetele pur și simplu rulând un script.

Puteți vedea toate pachetele pe care le-ați instalat folosind următoarea funcție:

installed.packages()

Referințe

  1. https://pdfs.semanticscholar.org/9b48/46f192aa37ca122cfabb1ed1b59866d8bfda.pdf
  2. https://opensource.org/history
  3. https://stats.stackexchange.com/questions/138/free-resources-for-learning-r
  4. https://www.r-project.org/help.html
  5. https://stackoverflow.com/documentation/r/topics
  6. https://www.rstudio.com/
  7. https://github.com/rafalab/dsbook

 

Sursa: Rafael A. Irizarry, Introduction to Data Science. (2022) Licența CC BY-NC-SA 4.0. Traducere și adaptare independente: Nicolae Sfetcu

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *