Bioinformatica
La bioinformatica e il Next Generation Sequencing
Obiettivi: in bioinformatica è spesso necessario gestire grandi moli di dati, eseguire calcoli che coinvolgono interi genomi, avere risultati riproducibili, gestire workflow e ambienti sviluppati e utilizzati da più utenti.
Perché: vi sono diversi motivi:
- centralizzare dati in ambienti affidabili e facilmente interrogabili,
- riutilizzare workflow di analisi a distanza di tempo ottenendo gli stessi risultati,
- esecuzione di calcoli che richiedono grandi quantità di memoria e/o di tempo.
Come: progettando e implementando database in ambienti solidi e testati quali PostgreSQL. Creando ambienti di lavoro basati su Conda e utilizzando sistemi di gestione codebase e progetti come Git e Gitlab. Analizzando e valutando i requisiti dei software per trovare la migliore strategia di parallelizzazione tra data parallelism o task parallelism.