Dificultatea invățării

Deprinderea unei noi abilități este un proces de lungă durată și foarte dureros. Pentru că te pune față în față cu limitele personale. Aud toate vocile care îmi spun că nu se poate, că este greu, că nu voi reuși.

Pentru a trece peste hăul învățării e nevoie de mulă energie, voință și perseverență. Am făcut primii pași pentru a deprinde abilități avansate de analiza a datelor și m-am lovit de obstacolul neputinței.

Pentru a reuși îmi găsesc tovarăși de drum alături de care să lucrez. Pentru mine învățarea este o experiență socială. Caut să mă înconjor de oameni cu aceleași preocupări alături de care să schimb experiență. Îi urmăresc pe cei ce au reușit și evit să conversez cu cei ce-mi spun că nu se poate.

Bazele statisticii – ep1

Sâmbătă am avut prima sesiune de lucru împreună cu Alex. O sesiune intensivă de trei ore în care am discutat conceptele de bază din statistică, am făcut un role play pe demararea unui proiect de analiză statistică și am realizat o prelucrare pe date de la INS.

Am început prin a clarifica o serie de concepte de bază. La fel ca orice disciplină științifică statistica are o filosofie, o serie de principii, metode și practici. Am început prin a seta cadrul general în care se desfășoară un proiect de analiză statistică. Proiectul are la bază domeniul de aplicare (ex: comert, botanica, medicină, educatie), este realizat cu un scop și urmărește îndeplinirea anumitor obiective stabilite.

Dezvoltarea vocabularului este un pas important în procesul de învățare. Caut să folosesc diverse metode care facilitează integrarea conceptelor (cititul, dialogul, dezbaterea, prezentarea, exprimarea în scris).

Tema de studiu pentru săptămâna asta este corelația statistică.

 

 

Bazele statisticii – ep0

După ce am exporat data science anul trecut mi-am propus ca în 2017 să aprofundez algoritmi și tehnici de modelare. Așa că primul pas la care m-am gândit e să-mi reactualizez cunoștințele de statistică.

La seminarul de tehnologii web l-am cunoscut pe Alexandru Oprescu. Este student în anul 3 la Statistică. Așa am început să discutam despre preocupările comune și ne-am hotărât să facem un schimb ce experiență.

Urmează să incepem un program introductiv în statistică care cuprinde

Statistică descriptivă
Probabilități
Inferența Statistică
Analiza matematică
Previziune statistică

Alex are o idee interesantă despre modul în care ar putea să transmită cunoștințele despre statistică printr-un portal web care să fie orientat către exemple din viața de zi cu zi și activități practice. Ne-am spus că din multi-disciplinaritatea noastră cu are cum sa nu iasă ceva interesant.

În primul episod am trecut printr-o vedere de ansamblu al programului și ne-am calibrat la nivelul de cunoștințe pe care îl am.

Data Science – retrospectiva pentru 2016

2016 a fost un an de explorare în Data Science

  • am făcut primul meu script in R
  • m-am familiarizat cu python si jupyter notebook
  • am urmat cursul Machine Learning Foundations: A Case Study Approach, University of Washington
  • am aplicat lectiile din curs pe o analiză de preț pentru mașina prietenului meu Horică și pentru a construi un sistem de recomandări pe o bază de date de articole științifice
  • am organizat un grup pe Facebook în care partajez materialele pe care le citesc
  • am citit Data Science for Business și eBook-ul What is Data Science?
  • m-am familiarizat cu o serie de concepte de baza din statistica
  • am aprofundat modelul CRISP-DM
  • am urmărit cu mare interes și curiozitate prezentările lui Mihai Bizovi, Data Scientist la AdoreMe în echipa Business Software
  • mi-am construit o bibliografie de cărți pe care să le citesc în continuare
  • am conversat cu domn profesor Ion IVAN pe tema operațiilor pe seturi mari de date de unde a rezultat o prezentare la conferința IES 2016 realizată împreună cu dânsul și Mihai DESPA. Am contribuit cu perspectiva integrării rolului de Data Scientist într-o echipă Agile
  • am citit diverse materiale pe blog-uri și am urmărit interviuri cu Data Scientits

Pentru 2017 imi propun să aprofundez algoritmi și tehnici de modelare pe care să le aplic pe un proiect practic.

Data Science – explorare

Weekendul asta am dedicat timp sa studiez despre Data Science. Sunt la nivelul introductiv in care ma prind de cateva concepta de baza, construiesc o bibliografie, adun resurse si  observ daca e cu adevarat un domeniu ce imi face placere sa il studiez pe teremen lung. Pana acum sunt incantat chiar daca imi dau seama ca multe din cunostintele necesare imi lipsesc.

Citesc Data Science for Business de Foster Provost, Tom Fawcett. Am ajuns la capitolul 6 – Similarity, Neighbors, and Clusters. Cartea e bine strucutata si nu abunda in elemente tehnice care sa imi provoace confuzie. Imi place cum imbina partea teoretica cu partea practica. As zice ca gradul de intelegere e undeva pe la 40 – 50% din ce citesc.

In paralel rasfoiesc o carte mai veche “Statistica Teoretica si Economica” scrisa in 1996.  Aici gradul de intelegere e considerabil redus. De multe ori ma gandesc “What the fuck did I just read?”, dar acest proces ma ajuta sa prind termenii in limba romana.

Azi am urmarit un interviu cu Clare Corthell. O metoda buna pentru a gasi inspiratie si de a afla din provocarile si parcursul altora.

O alta resursa faina pe care o rasfoiesc e o colectie de link-uri, carti, seturi de date de pe github numita Awesome DataScience – https://github.com/okulbilisim/awesome-datascience

Primul meu script in R

Anul trecut am cochetat cu subiectul Data Science si mi-a starnit o mare curiozitate. Vlad Masek mi-a prezentat limbajul R si cateva concepte de baza. Mi-am propus ca anul acesta sa aprofundez. Sunt foarte entuziasmat pentru ca azi am realizat primul meu script in R.

Inainte de a trece la subiect adaug definitii pentru termenul data science

Wikipedia:

Data Science is an interdisciplinary field about processes and systems to extract knowledge or insights from data in various forms, either structured or unstructured,[1][2] which is a continuation of some of the data analysis fields such as statistics, data mining, and predictive analytics, similar to Knowledge Discovery in Databases (KDD).

Iar in cartea “Data Science for Dummies” termenul este prezentat ca:

the practice of using computational methods to derive valuable and actionable insights from raw datasets

In termeni practici, data science presupune existenta unei probleme/nevoi, disponibilitatea unui set de date si construirea unei solutii folosind instrumente de analiza a datelor.

Am inceput un nou proiect de coaching agile si nevoia de la care am pornit este de a aveea o vedere de ansamblu asupra produsului dezvoltat. Pe langa discutiile face-to-face cu membrii echipei, ma familiarilez cu istoricul proiectului urmarind tichetele din JIRA. De obicei fac acest lucru manual, petrecand cateva ore urmarind patternuri in titlul tichetelor, citind comentarii si urmarind evolutia sprinturilor. De data asta, mi-am dorit sa fac aceasta analiza folosind abordari data science. Am inceput cu un script simplu pentru care sunt disponibile multe tutoriale online: generarea unui worldcloud. Am reusit sa aflu care sunt cuvintele cu frecventa mare si care sunt temele ce se repeta in cadrul proiectului. O analiza care mi-ar fi luat zile bune avand in vedere ca sunt peste 6000 de tichete.

Scriptul este disponibil aici: jira-export

Resurse:
– https://www.datacamp.com/community/tutorials/r-data-import-tutorial
– https://www.youtube.com/watch?v=lRTerj8fdY0