Outils - StatGen

UK Biobank et les températures extrêmes

Nous étudions présentement l'effet des températures extrêmes (chaudes ou froides) sur diverses issues en santé. Pour ce faire, nous utilisons les données du HadUK-Grid contenant des observations climatiques sur une grille de 1 km sur le Royaume-Uni (v1.3.0.ceda). Les issues cliniques utilisées proviennent du UK Biobank. Un résumé des données climiatiques est disponible à https://statgen.org/uk-weather/weather_summary_simple.html.

Étude protéomique sur l'acclimatation

Nous avons étudié les changements protéomiques (plasma) en réponse à une exposition à la chaleur aiguë et à l'acclimatation à la chaleur. Nous avons également exploré si les changements au niveau du protéome sont en corrélation avec les changements physiologiques classiques de l'acclimatation à la chaleur chez l'humain. De telles recherches dans le domaine de la protéomique non ciblée ont le potentiel de générer de nouvelles hypothèses et le partage des résultats peut aider à accélérer les découvertes dans ce domaine. L'application web est disponible à https://acclimation.statgen.org/.

ExPheWas

Le navigateur ExPheWas présente les résultats d'une étude d'association à l'échelle du phénotype (PheWAS) utilisant une approche qui modélise l'effet conjoint de variations génétique au niveau des gènes codants pour des protéines. Dans la version actuelle des données, nous avons testé l'association entre 26 616 gènes codants pour des protéines ou des lincRNA et 1 746 phénotypes disponibles dans la Biobanque du Royaume-Uni. Le navigateur ExPheWas est disponible à l'adresse https://exphewas.ca/ et a été publié dans Nucleic Acids Research (doi: 10.1093/nar/gkac289).

PheWeb

Nous avons plusieurs instances de PheWeb disponible publiquement. Ces instances sont hébergées sur une machine virtuelle de Calcul Canada.

forward

forward est un outil bio-informatique afin d'exécuter, de gérer et d'explorer les études phénomiques. L'outil est accessible via GitHub. La documentation est disponible ici. Un gestionnaire de bogues pour ce projet (qui peut être utilisé pour les demandes de fonctionnalités) est également disponible.

genipe

genipe est un pipeline automatique pour effectuer une analyse d'imputation pangénomique sur un jeu de données génétiques. L'outil est accessible via GitHub. Une documentation complète est disponible, incluant des instructions d'installation claires.

pyplink

pyplink est un module python open source qui permet l'utilisation des fichiers binaires de Plink sans avoir à d'abord les convertir en fichier texte. Le module est accessible via GitHub. Le fichier README contient une description de son utilisation.

pyGenClean

pyGenClean est un outil bio-informatique permettant de faciliter et de normaliser le nettoyage de données génétiques. L'outil minimise les erreurs de manipulation de données, il accélère le pipeline de nettoyage des données et il fournit des graphiques et des métriques permettant de guider la prise de décision pour les analyses statistiques.

CNV Analysis Toolkit

Cet ensemble d'outils a été créé pour l'étude de programmes permettant le génotypage de CNV sur des données de séquençage complet du génome de jumeaux monozygotes.

CNGen

Nous avons créé un script qui convertit les SNP et les CNV générés par Fawkes (suite Birdsuite) en génotypes CN phasés en utilisant des données familiales. Ce logiciel rend possible l'utilisation des CNV et CNP pour les études de liaison génétique avec des données familiales.

Chip2Spell

Nous avons créé un programme qui génère automatiquement les fichiers d'entrée pour Alohomora_m. Le programme, Chip2Spell, prend en entrée un fichier de génotypes et des fichiers d'annotation publiquement accessibles et crée le fichier de génotype, le fichier de positionnement génétique et le fichier de fréquence utilisé par Alohomora. Le programme est particulièrement utile si le fichier de positionnement génétique ou le fichier de fréquence pour une plateforme donnée ne sont pas stockés dans la bibliothèque d'Alohomora. De plus, il est aussi un moyen rapide et efficace pour convertir les fichiers par défaut d'Affymetrix ou d'Illumina au format AB demandé par Alohomora.

Interactions gène-environnement

Nous avons créé un logiciel qui effectue une analyse GWAS des interactions gènes-environnement pour les SNP et SNP imputées. Au lieu d'utiliser PLINK pour effectuer une régression logistique ou un modèle linéaire généralisé, nous avons utilisé le mode R de PLINK.

Test MAX

Nous avons implémenté le test MAX de Zheng et Gastwirth (Statist. Med. 2006;25:3150) dans une macro SAS. Nous avons aussi créé un wrapper pour notre code du test MAX qui permet à l'utilisateur de corriger pour les tests multiples en utilisant l'algorithme maxT (Alg 4.1 de Westfall et Young, 1993).

Beyond SAS Genetics™

Papier mettant en évidence les caractéristiques de base de SAS/Genetics que nous appliquons systématiquement lors d'analyse d'études d'association génétique. Il inclut aussi des procédures SAS/STAT supplémentaires comme LOGISTIC et PHREG permettant d'effectuer des analyses couramment utilisées dans les études génétiques humaines.

Déséquilibre de liaison avec SAS/GENETICS et SAS/STAT

Vérifier pour la présence de déséquilibre de liaison (LD) et mesurer sa valeur est important pour les analyses statistiques en génétique. Le LD est la corrélation génétique entre deux ou plusieurs loci dans le génome au sein d'une population donnée. PROC ALLELE de SAS/GENETICS offre une variété de mesures de LD qui sont liés à la corrélation de Pearson. Différents tests statistiques de déséquilibre de liaison sont effectués en utilisant PROC ALLELE. PROC HAPLOTYPES offre des tests statistiques pour de multiples loci. Dans cet article, nous clarifions les différences entre les mesures de LD obtenus en utilisant PROC ALLELE et montrons comment l'option HAPLO=OPTION de cette procédure interagit avec les calculs de déséquilibre de liaison et les tests statistiques. De plus, nous comparons PROC CORR et PROC ALLELE en termes de coefficients de corrélation dans les données génotypiques.