High throughput computing e intelligenza artificiale
Prima di poter sviluppare nuovi strumenti, ad esempio basati su machine learning, è necessario disporre di grandi moli di dati. Quando questi dati non fossero già disponibili presso archivi pubblicamente accessibili, sarebbe necessario procedere alla loro creazione.
Per un nostro cliente di una grande università abbiamo generato ad esempio un insieme di allineamenti multipli tra interi genomi di numerose specie (qua l'articolo risultato dal progetto). Questo compito ha coinvolto uno studio iniziale dei requisiti hardware e una successiva esecuzione in parallelo delle diverse fasi del processo; ciò ha richiesto dei sistemi di calcolo differenti nelle diverse fasi: possono essere richiesti numerosi core di calcolo sfruttati da software all'avanguardia, oppure possono essere presenti notevoli richieste dal punto di vista della memoria, sia RAM sia su disco.
L'analisi a monte dell'esecuzione ci permette di valutare se le risorse in-house del cliente possano soddisfare i vincoli del progetto, oppure se sia necessario identificare altri tipi di infrastruttura, dal cloud all'HPC che possano essere adeguati dati anche i tempi di esecuzione richiesti.