Название: R für Dummies
Автор: Andrie de Vries
Издательство: John Wiley & Sons Limited
Жанр: Программы
isbn: 9783527836093
isbn:
www.twitter.com/search/rstats
) engagieren
und auf regionalen und internationalen Konferenzen zu finden sind.
Für weitere Informationen siehe auch Kapitel 11.
Schnittstellen zu anderen Sprachen
Nachdem mehr und mehr Menschen begannen, für ihre Analysen auf R umzusteigen, versuchten sie, R mit ihren alten Prozessen zu kombinieren. Dies führte zu einer riesigen Auswahl von Paketen, die R mit Dateisystemen, Datenbanken und anderen Anwendungen verbinden. Viele dieser Pakete sind mit der Zeit in die Basisinstallation von R aufgenommen worden und stehen nach dem Download gleich zur Verfügung.
Das Paket foreign
(https://cran.r-project.org/web/packages/foreign/index.html
) ermöglicht zum Beispiel den lesenden Zugriff auf Dateien, die von Statistikpaketen wie SPSS, SAS, Stata und anderen stammen (siehe Kapitel 12).
Für die Anbindung an Datenbanken stehen mehrere Pakete zur Verfügung, beispielsweise
das RODBC -Paket für Datenbanken, die das Open Database Connectivity Protocol (ODBC) verwenden (https://cran.r-project.org/web/packages/RODBC/index.html
), oder
das ROracle -Paket für Oracle-Datenbanken (https://cran.r-project.org/web/packages/ROracle/index.html
).
Zu Beginn wurde R im Wesentlichen in Fortran und C geschrieben. Daher konnte Code in diesen beiden Sprachen problemlos aus R heraus aufgerufen werden. Mit der Zeit kamen immer mehr Sprachen wie C++, Java, Python und weitere hinzu, die auf einfache Weise aus R heraus aufgerufen werden können.
Da es immer mehr R-Anwender gab, konnten die Entwickler kommerzieller Softwarelösungen R nicht mehr einfach ignorieren. Deshalb enthalten heute viele der großen kommerziellen Softwarepakete Add-ons zur Anbindung an R. Dies betrifft besonders die SPSS-Software (IBM) als auch SAS (SAS Institute). In beiden Fällen gibt es Schnittstellen, um Daten und Grafiken zwischen R und der jeweiligen Statistiksoftware hin- und herzubewegen.
Auch andere Entwickler haben zur besseren Verknüpfbarkeit unterschiedlicher Datenanalyse- und Statistiksoftware beigetragen. Beispielsweise hat Statconn RExcel
entwickelt, eine Excel-Schnittstelle, die es Anwendern erlaubt, mit R innerhalb von Excel zu arbeiten (http://www.statconn.com/products.html
).
Einige bemerkenswerte Eigenschaften von R
R ist mehr als eine Programmiersprache für den Statistikbereich. Es hat einige einzigartige Eigenschaften, die es sehr leistungsstark machen. Dazu gehört das vektorwertige Konzept, das Berechnungen mit vielen Werten auf einmal ermöglicht.
Berechnungen mit Vektoren durchführen
R ist eine vektorbasierte Sprache. Stellen Sie sich einen Vektor als Zeile oder Spalte mit Zahlen oder Text vor. Die Liste der Zahlen {1,2,3,4,5}
könnte beispielsweise einen Vektor darstellen. Im Gegensatz zu vielen anderen Programmen ermöglicht Ihnen R, Funktionen auf den ganzen Vektor gleichzeitig anzuwenden, ohne dass Sie eine Schleife programmieren müssen.
Lassen Sie uns das mit richtigem R-Code illustrieren. Zunächst weisen wir die Werte 1:5
einem Vektor zu, den wir x
nennen:
> x <- 1:5
> x
[1] 1 2 3 4 5
Anschließend addieren wir zu jedem Element des Vektors x
den Wert 2
und geben das Ergebnis aus:
> x + 2
[1] 3 4 5 6 7
Sie können auch zwei Vektoren addieren. Um die Werte 6:10
elementweise zu x
zu addieren, geben Sie ein:
> x + 6:10
[1] 7 9 11 13 15
In den meisten anderen Programmiersprachen würden diese Operationen eine explizite Schleife erfordern, die die Addition elementweise durchführt.
Diese Eigenschaft ist äußerst hilfreich, da sie Ihnen ermöglicht, viele Operationen in einem einzigen Schritt auszuführen. In anderen Sprachen, die nicht vektororientiert sind, müssten Sie Schleifen programmieren, um dasselbe zu erreichen.
Wir stellen das Konzept der Vektoren in Kapitel 2 vor und vertiefen Vektoren und Vektorisierung gründlich in Kapitel 4.
Mehr als nur statistische Berechnungen
R wurde von Statistikern entwickelt, um statische Berechnungen zu vereinfachen. Dieses Erbe besteht fort: R ist immer noch ein sehr leistungsstarkes Werkzeug, um praktisch jede statistische Berechnung durchzuführen.
Je mehr sich R über seine Ursprünge in Statistik hinaus entwickelte, zog es immer mehr Programmierer als reine Statistiker an. Aus diesem Grund ist R sehr geeignet für eine Reihe nicht statistischer Aufgaben. Dazu gehören Datenbearbeitung, grafische Visualisierung und Analysen aller Art. Aktuell wird R in den Bereichen Finanzmathematik, Sprachverarbeitung, Genetik, Biologie und Marktforschung verwendet, um nur einige zu nennen.
R ist Turing-vollständig . Dies bedeutet, Sie können damit alles programmieren, was Sie wollen. (Das wird allerdings nicht immer einfach sein.)
Für dieses Buch nehmen wir an, dass Sie die Programmierung mit R erlernen wollen, und nicht Statistik. Dennoch enthält Teil IV eine Einführung in Statistik.
Code ohne Compiler ausführen
R ist eine interpretierte Sprache , Sie benötigen also – im Gegensatz zu kompilierten Sprachen wie Java oder C – keinen Compiler, der aus Ihrem Code erst ein ausführbares Programm erstellt, bevor Sie es verwenden können. R interpretiert den von Ihnen vorgegebenen Code und wandelt ihn in Aufrufe vorkompilierter Funktionen um.
In der Praxis bedeutet dies, dass Sie einfach Ihren Code schreiben und an R senden, wo er direkt ausgeführt wird. Dies vereinfacht den Entwicklungszyklus enorm. Diese Bequemlichkeit gibt es jedoch nicht ganz umsonst. Die Ausführung des Codes dauert etwas länger. Interpretierte Sprachen sind meist langsamer als kompilierte.