Codieren, dass meine Daten mit einem Pytorch-LSTM

Ich versuche zum einrichten einer Pytorch-LSTM für einen Einfluss-Analyse-problem. Ich bin derzeit stecken wie sollte ich richtig codieren meine Daten und welche Art von Daten die LSTM erwartet.

Ich habe einen Datensatz von etwa 12000 Sätze, alle tagges mit einer bestimmten emotion. Meine Daten sind wie folgt codiert:

Ich erstellt ein separates dataset, das aus dem Part-of-Speech-Tags für jedes Wort in dem Satz. Die POS-Tags sind one-hot codiert:

0           1               83
[1,0,0..0], [0,1,0..0], ... [0,0,0..0] 
[0,0,0..1], [0,0,1..0], ... [1,0,0..0]
...

Jede Zeile ist ein Satz. Alle Zeilen haben eine Länge von 84 (kürzere Sätze sind gepolstert und mit einem null-Vektor). Die Listen, die in jeder Zelle entsprechen, an eine bestimmte pos-tags, Sie haben eine Länge von 17.

Das Ziel-dataset hat die gleiche Anzahl von Zeilen wie die dataset oben, aber jede Zeile enthält nur eine Liste, die Kodierung eines von vier Emotionen:

0           
[1,0,0,0] 
[0,0,0,1]
...

Ich bin jetzt fest auf, wie instert diese Daten (insbesondere die pos-Datensatz) in der lstm. Die docs sagen, das LSTM erwartet ein input-dimension-und output-dimension parameter. Was ist genau ist mein input-dimension hier? Jede Folge hat eine Länge von 84, aber jedes Element in dieser Sequenz ist eine Liste der Länge 17.

Ich habe gelesen, die docs und einige tutorials, aber keines von diesen scheinen eine ähnliche Datenstruktur wie ich. Jegliche Hilfe würde sehr geschätzt werden.

+1
2019-09-17 14:01:17
Quelle
0 Antworten

Sehen Sie sich andere Fragen zu Tags an