Fragen mit dem Tag "apache-spark"

1

Wie um zu überprüfen, ob der Funke mit OpenBlas?

Vor kurzem habe ich heruntergeladen und gebaut von Spark 2.3.1. Ich habe diese Befehle herunterladen und wählen Sie die version 2.3.1 git clone https://github.com/apache/spark.git cd spark git checkout tags/v2.3.1 Ich bin auf der Suche zur Verb...
0

Umgang mit Excel-Zellen zusammengeführt, Schwenkbar in Python/Spark

Ich arbeite mit den folgenden Daten festlegen (Beispiel): Ich habe versucht, konvertieren diese in das folgende schema: Name Currency Date Net - Current Time - Current Ich habe versucht, das Lesen der Datei in beiden pandas mit read_e...
0

Hilfe beim erstellen der code für die gegenseitige Freunde problem in der Funke

Gegeben sei eine Menge S von Paaren von Benutzernamen entsprechende gegenseitige Freundschaft in ein Soziales Netzwerk, ein Programm schreiben, das die Ausgabe jedes Benutzers i-TEN Grad Freunde, für jede positive i kleiner oder gleich Nfür ein feste...
0

Wie Integrieren Spark mllib Streaming-Ausbildung Modelle Zu entfachen, Strukturierte Streaming

Spark mllib Bibliothek Streaming-Training-Modelle arbeiten mit DStream. So gibt es einen Weg, Sie zu verwenden mit spark strukturierte streaming.
2

Führen Sie einen scan-Vorgang in einer Gruppe von Datensätzen in Pyspark Dataframe (Spark v1.6)

Experten, ich habe eine Anforderung, wo in einer Gruppe von Datensätzen, die ich ausführen "scan & Act" - Betrieb auf eine Pyspark dataframe. Hier ist mein pyspark dataframe (Spark version 1.6) mit 2 Feldern- col1 effective_date A 201...
2

Beispiel dataframe nicht ausgestrahlt, während Sie eine Verknüpfung ohne änderung Funke Eigenschaften

Nach der Dokumentation, einer kleinen DataFrame ausgestrahlt wird standardmäßig aktiviert, wenn dies eine Hive-Metastore-Tabelle und der DataFrame ist kleiner als 10MB an. Hier bin ich versucht zu finden, ein Beispiel von einer "kleinen" DataFrame w...
0

Generierung von monatlichen Daten aus der täglichen CSV-Dateien mit Apache Spark und AWS

Ich habe CSV-Dateien mit identischen Spalten und eine million matching IDs für jeden Tag-in 2018. Jeder hat 5 Spalten mit Ausnahme der ID. Ich möchte zum verketten von Dateien nach Monat, so dass monatlich je Datei 5 Spalten * die Anzahl der Tage, ...
1

Spark JDBC Lesen, Partition, Spalte Typ Wählen?

Ich versuche ein Lesen einer SQL-Tabelle (15 Millionen Zeilen), mit Funken, die in Dataframe, ich will zu nutzen Multi-Core zu Tun, der lese sehr Schnell und machen die Partition, Welche die Spalten - /s kann ich wählen, um partition ? ist es ID, UUI...
0

Cassandra count Abfrage zu werfen ReadFailureException

Ich bin mit Funken-sql 2.4.1 , spark-cassandra-connector_2.11-2.4.1.jar und java8. Ich habe eine situation , die für auditing-Zwecke, die ich brauche, um die Berechnung der Tabelle Zeilenanzahl von C* Tabelle. Ich habe rund 2 Milliarden Datensätze in...
0

Installation Funke - problem .Profil-Einstellungen

Ich bin Anfänger, ich habe schon mehrere Anleitungen zum konfigurieren von spark und python, einschließlich dieser: Link Spark mit iPython Notebook. Nun habe ich ein problem mit .profile; es werden Fehler der ersten und letzten Zeile, aber ich kann...
0

Warum ist " Funke.range(100).orderBy('id', aufsteigend=False).rdd` nicht faul und eine Aktion auslösen?

Spark v2.4 pyspark spark.range(100).orderBy('id', ascending=False).rdd Wenn ich die oben, wird es sofort spawn ein Funke job. Ich finde es überraschend, da ich nicht noch eine Aktion angeben. E. g. spark.range(100).repartition(10, 'id').sortWithi...
0

Wie viele Zeilen eingefügt werden, sind in Tabelle mithilfe der folgenden spark sql

Ich bin mit Spark 2.1 und spark-sql Befehl zum ausführen der folgenden sql-Skript, die ich schreiben möchte only one Zeile in der mysql Tabelle mytable CREATE OR REPLACE TEMPORARY VIEW tmp_v2 USING org.apache.spark.sql.jdbc OPTIONS ( driver 'com.m...
0

Pyspark - SparkStreaming - Python v3.5 - java.lang.Classcastexception-Fehler: java.lang.Integer kann nicht gewirkt werden, um java.lang.Lange

Ich bin neu spark-streaming, die versuchen, Daten zu Lesen vorhanden in der Kafka-broker. Unten ist mein code: def __init__(self): self.spark = SparkSession \ .builder \ .appName("TestApp") \ .config("k1", "v1") \ ...
0

Umwandlung von verschachtelten null-Werte leere Zeichenfolgen, die in dataframe Funke

Ich bin auf der Suche zu konvertieren, die null-Werte in verschachtelten Array von String zu leeren Zeichenfolgen in der Funke. Die Daten in einem dataframe. Ich Vorhaben, läuft auf eine Funktion reduzieren Sie nach den dataframe null sicher, nicht s...
0

Sehen Sie Fortschritte beim "Durchlaufen" über Dataframe

Ich Frage mich, ob es einen besseren Weg, um zu sehen, ob Pyspark macht Fortschritte. Derzeit die einzige Ausgabe, die ich sehe, während mein code ausgeführt wird: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties ...
0

Analysieren TFile formatiert hadoop, log-Dateien in spark oder python

Die HDP-cluster, mit der ich arbeite, hat Garn log-aggregation aktiviert. Ich sehe einige die Anwendung von Protokollen zur Verfügung, die in jeder Daten-node, die in für Menschen lesbaren format. Jedoch die aggregierten logs im /app-logs-Verzeichnis...
3

pyspark Datei Lesen von AWS S3 funktioniert nicht

Ich installierte spark und hadoop mit brew: brew info hadoop #=> hadoop: stable 3.1.2 brew info apache-spark #=> apache-spark: stable 2.4.4 Ich bin jetzt versuchen, laden Sie eine csv-Datei gehostet auf s3, habe versucht, viele verschiedene ...
0

Effiziente Kosinus-ähnlichkeit-Berechnung in Spark

Es gibt mehrere Möglichkeiten, ich kann die Berechnung der Kosinus-ähnlichkeit zwischen einem Funken ML Vektor zu jedem ML Vektor ist ein Funke DataFrame Spalte Sortieren dann für die höchsten Ergebnisse. Jedoch, ich kann nicht kommen mit einer Metho...
1

Wie man batch-ID in der Kafka-Ausgabe von Spark Strukturierte Streaming

Ich bin mit meinen Spark Strukturierte Streaming job im update-Modus, und kann nicht herausfinden, ob es möglich ist, um die batch-ID für jedes update. Zum Beispiel, wenn Sie eine Ausgabe auf der Konsole in den update-Modus, Funke zeigt jedes batch-N...
0

Versuchen Pandas in Pyspark

Ich habe ein problem, wenn ich versuche, verwenden toPandas() mit einem dataframe in PySpark. Ich versuche hinzufügen ('spark.executor.memory', '16g'),('spark.driver.memory','16g') in der SparkContext aber nicht funktioniert. Dies ist der cod...
0

Spark datafram: Wie ändere geschachtelten Spalten-Wert nach äußeren Spalte

Wie kann ich das ändern das datafram inter in der b-Spalte.c? Die Anforderung ist, wenn c null ist c = a { "a": "1" "b": [ c: null, d: 2 ] } Dank
1

publishing von XML-Nachrichten aus Zerocode zum Thema Kafka

Ich bin versucht, integration-Tests für die streaming-Plattform ( Kafka / spark ) mit zerocode null-code (veröffentlichen Sie XML-Nachricht )--> serialisieren mit Apache AVRO --> Kafka-Thema --> spark-job (Verarbeitung) --> Kafka-Thema...
0

Spark sortMergeJoin ist nicht zu ändern, um shuffleHashJoin

Ich bin versucht zu zwingen, Funke verwenden ShuffleHashJoin durch deaktivieren BroadcastHashJoin und SortMergeJoin, aber der Funke immer mit SortMergeJoin. Ich benutze Funken version 2.4.3 object ShuffleHashJoin { def main(args: Array[String]): U...
0

Warum Parkett über einige RDBMS wie PostgreSQL

Ich arbeite zum erstellen einer Daten-Architektur für mein Unternehmen. Ein einfaches ETL-Prozesse mit internen und externen Daten mit dem Ziel zu bauen, statische Armaturenbrett und andere suchen trend. Ich versuche zu denken über jeden Schritt des...
1

orderBy-Dataframe auf zwei oder drei Spalten auf Grundlage einer Bedingung, scala, spark

Ich bin kämpfen mit diesem problem der Verwendung von Spark-Scala: Ich habe eine inmutable Wert "iter", die initialisiert werden, um 1 oder 2. Je nach dem Wert von 'iter', wenn es 1 ich erstellen müssen Sie ein neues Dataframe, die die vorherigen s...