FAQ

Warum startet mein Job nicht?
Zuerst sollte man condor_q -analyze ausführen. Oft steht dort schon, warum der job nicht startet. In der MorfeusConsole kann man diesen Befehl per Rechtsklick auf den entsprechen Job ausführen ("Jobanalyse anzeigen").


Ich schicke meine Jobs über den Terminalserver NWZCitrix ab. Wenn ich mich später wieder anmelde, sehe ich sie in der Warteschlange nicht mehr, obwohl sie noch nicht ausgeführt wurden. Warum?

Der Terminalserver besteht aus vielen verschiedenen Knoten, die jeweils eine eigene Warteschlange haben. Wenn man sich neu anmeldet, kommt man häufig nicht auf denselben Knoten, so dass die vorher abgeschickten Jobs nicht in der lokalen Warteschlange stehen. Mit condor_q -global (bzw. durch Anklicken des entsprechenden Häkchens in der MorfeusConsole) können aber die Jobs aller Warteschlangen angezeigt werden. Hier sollten dann auch Ihre Jobs wieder auftauchen.


Wie bekomme ich heraus, auf welchem Computer mein Job gerade gerechnet wird?
Die MorfeusConsole zeigt Ihnen diese Information in der letzten Spalte der Warteschlange an.
In einer Eingabeaufforderung verwenden Sie den folgenden Befehl: condor_q -run


Manchmal läuft mein Programm im Grid, manchmal läuft es nicht. Woran kann das liegen?
Vielleicht haben Sie in Ihrer Jobbeschreibungsdatei nicht richtig spezifiziert, welche Anforderungen Ihr Programm hat. Wenn Ihr Programm z.B. 2 GB Arbeitsspeicher benötigt, Sie das aber nicht angegeben haben, hängt es vom Zufall ab, ob Sie auf einem Rechner mit genügend Speicher landen oder nicht. Achten Sie auch darauf, dass Sie keine 64-Bit-Programme an 32-Bit-Knoten schicken.


Ich konnte Morfeus bisher immer ohne Probleme benutzen. Doch seit kurzem starten die Jobs nicht mehr. Sie verbleiben im Status idle und die log-Datei schreibt lediglich etwas wie "000 (072.000.000) 05/04 10:25:11 Job submitted from host: <128.176.208.220:1042>"
Haben Sie kürzlich Ihr Passwort geändert? Falls ja, so müssen sie auf dem Computer, von dem Sie den Job abschicken, einmal "condor_store_cred delete" und danach wieder "condor_store_cred add" ausführen, um Condor Ihr neues Passwort mitzuteilen.


Wie lösche ich einen eigenen Job aus der Warteschlange?
In der MorfeusConsole können Sie Jobs einfach per Rechtsklick aus der Warteschlange entfernen.
Wenn Sie mit der Kommandozeile arbeiten, müssen Sie zwischen zwei Fällen unterscheiden:

  • Falls der Job von dem Computer aus gelöscht werden soll, von dem der Job auch gestartet wurde, führen Sie aus:
    condor_rm ID
  • Falls der Job hingegen von einem anderen Computer aus gelöscht werden soll, führen Sie aus:
    condor_rm -name COMPUTERNAME ID

Dabei steht ID für die Job-ID, also die Zahl, die dem Job zugeordnet wurde. Diese Zahl bekommen Sie durch condor_q heraus.
COMPUTERNAME steht für den Namen des Computers. Den Namen des Computers, von dem aus Sie den Job abgeschickt haben, können Sie durch condor_q -global erfahren. Nachdem Sie das Kommando ausgeführt haben, ist der Name des Computers in der Zeile -- SCHEDD: aufgeführt.


Wenn ich mit condor_q nach meinem Job schaue steht dort in der Spalte ST ein H. Was bedeutet das?
Der Job befindet sich im Status "Held", d.h. er wird gerade nicht bearbeitet. Ein Job wird immer dann automatisch in diesen Status versetzt, wenn es mit ihm zu viele Probleme gab. Das Problem muss nicht unbedingt bei Ihrem Job liegen, sondern kann auch durch kurzfristig auftretenene Störungen im Morfeus-Grid (z.B. Netzwerkprobleme) hervorgerufen werden.
Falls Sie Ihren Job wieder freigeben möchten, so können Sie das per Rechtsklick auf Ihren Job in der MorfeusConsole erledigen, oder Sie tippen das Kommando condor_release in die Eingabeaufforderung.
Für einen bestimmten Job mit der Job-ID nr tippen Sie: condor_release nr
Falls Sie alle Jobs wieder freigeben möchten tippen Sie: condor_release -all
Falls Sie den Job von einem anderen Computer aus abgeschickt haben, müssen Sie die Option "-name" angeben, s. vorherige Frage.


Bei weiteren Fragen wenden Sie sich bitte per E-Mail an die Hotline.