Les facteurs de transcription Relation structure fonction proteine protein structure function relationship Enseignement recherche Biochimie Universite Angers Emmanuel Jaspard biochimej

Les facteurs de transcription

1. Introduction

a. Les séquences appelées éléments de réponse
b. Quelques définitions : promoteur, activateur, enhancer, répresseur, opérateur, silencer, insulator
c. Les facteurs de transcription généraux
d. Les autres types de facteurs de transcription

2. Classification des facteurs de transcription

3. Les facteurs de transcription généraux

4. Les structures des domaines de fixation de l'ADN des facteurs de transcription

a. Les différentes structures de l'ADN
b. Motif hélice-tour-hélice
c. Homéodomaine, boîte homeobox et domaine POU

d. Motif hélice-boucle-hélice
e. Motif "Leucine-zipper"
f. Le motif "Zinc finger"

5. Les récepteurs nucléaires

a. Rôle et mode d'action des récepteurs nucléaires
b. Structure des récepteurs nucléaires
c. Mode d'activation des récepteurs nucléaires
d. Quelques ligands importants des récepteurs nucléaires
e. "Peroxisome proliferator-activated receptor" (PPAR)

6. Quelques exemples de familles de facteurs de transcription de plantes et d'animaux liés aux stress biotiques et abiotiques

7. Liens Internet et références bibliographiques

1. Introduction

Un facteur de transcription (FT) est une protéine qui se fixe sur une séquence spécifique de l'ADN. Il contrôle le flux (la vitesse) de la transcription d'un gène.

Les FT régulent la transcription seul ou sous forme de complexe avec d'autres protéines : ils activent ou inhibent le recrutement de l'ARN polymérase sur des gènes spécifiques.

Les FT sont présent chez tous les organismes vivants. Leur nombre est corrélé à la taille du génome d'un organisme. Le génome de l'homme code au moins 2600 protéines possédant un domaine de fixation de l'ADN (environ 10% des gènes). Les FT constituent la famille de protéines la plus vaste.

Du point de vue structural, les FT possèdent un ou plusieurs domaine(s) de fixation à l'ADN qui se fixent à une séquence spécifique régulatrice de l'ADN [amplificateur ("enhancer") ou promoteur ("promoter")] adjacente aux gènes que les FT régulent.

Les FT régulent la transcription via différents mécanismes :

la stabilisation ou l'empêchement de la fixation de l'ARN polymérase sur l'ADN
l'activité histone acétyltransférase des FT acétyle des histones ce qui amoindrit l'association de l'ADN avec les histones : l'ADN est plus accessible d'où activation de la transcription
l'activité histone désacétylase des FT désacétyle des histones ce qui renforce l'association de l'ADN avec les histones : l'ADN est moins accessible d'où répression de la transcription
de nombreux FT utilisent (seul ou avec d'autres protéines) l'un ou l'autre de ces deux mécanismes opposés pour réguler la transcription
le recrutement de protéines co-activatrices ou co-répressives au complexe de transcription de l'ADN

Exemples de techniques pour étudier l'interaction protéine - ADN

L'immunoprécipitation de la chromatine ("Chromatin Immunoprecipitation" - ChIP) est une technique qui permet d'étudier l'interaction entre des protéines spécifiques et des régions spécifiques du génome (exemple : FT sur les promoteurs).
L'empreinte ADN ("DNA footprinting") s'appuie sur le fait que quand une protéine est liée à l'ADN avec une certaine affinité, l'ADN est protégé de la dégradation par les nucléases. La protéine laisse donc son empreinte sur l'ADN.
Technique de retard de migration ("Gel shift assay") : un fragment d'ADN migre plus lentement dans un gel s'il est lié à une protéine et on observe une différence ("shift") de migration.

a. Les séquences appelées éléments de réponse

Pour que la transcription ait lieu, l'ARN polymérase (enzyme qui synthétise l'ARN) doit se fixer à l'ADN près d'un gène. Les régions de l'ADN appelées promoteurs contiennent des séquences d'ADN spécifiques et des éléments de réponse ("response elements") qui sont un site sûr de fixation initiale de l'ARN polymérase et des FT qui recrutent l'ARN polymérase.

La boîte CCAAT (ou boîte CAAT ou boîte CAT) est une séquence consensus [GGCCAATCT] qui se situe 75 à 80 paires de base en amont du site initial de la transcription. La boîte CAAT est un site signal de fixation des FT.

Illustration : signalisation par l'AMPc - CRE, CREB et CBP

Les éléments de réponse à l'AMPc appelés CRE ("cAMP Responsive Elements") sont des séquences nucléotidiques consensus qui se situent dans la partie régulatrice des gènes dont la transcription est dépendante de la présence de l'AMP cyclique (AMPc). CRE est un "enhancer" (voir ci-dessous) et se trouve 100 à 150 paires de base en amont de la boîte TATA.

La plupart des gènes dont la transcription est dépendante de l'AMPc contiennent une séquence palindromique 5'-TGACGTCA-3' ou une partie de cette séquence (5'-CGTCA-3').

Les protéines de liaison à CRE sont appelées CREB ("CRE Binding protein") : ce sont des facteurs de transcription de type "leucine-zipper" (voir ci-dessous). Les CREB forment des homodimères ou des hétérodimères avec un autre facteur de transcription (exemple : c-jun). L'affinité des dimères CREB pour CRE est élevée (K_d = 1 nM).

CREB contient un domaine transactivateur constitué :

d'une région Q2 (acides aminés 160 - 283) qui est constitutive
d'une région KID ("Kinase Inducible Domain" - acides aminés 160 - 283) qui est inductible

CRE binding protein facteur transcription factor promoteur response element reponse activateur enhancer represseur operateur silencer insulator ADN DNA binding domain biochimej

Figure inspirée de "Communications et signalisations cellulaires" Y. Combarnous (2004)

La fixation aux sites CRE dépend des séquences qui flanquent la séquence promoteur. Si ces séquences contiennent des sites de fixation pour d'autres facteurs de transcription (et qu'ils sont présents), les interactions entre CREB et les autres facteurs de transcription favorisent la formation de complexe ternaire [ADN-CREB-autreFT].

L'existence de tels complexes dans des compartiments ou cellules diverses et à des moments différents jouent un rôle important dans le contrôle spatio-temporel de la transcription des gènes contrôlés par l'AMPc.

L'étape de transactivation est stimulée par la phosphorylation par la protéine kinase A. L'état phosphorylé ou non de CREB n'influence ni sa dimérisation ni sa fixation à l'ADN. La phosphorylation ne semble requise que pour le recrutement de son co-activateur : la protéine CBP ("CREB Binding Protein").

La phosphorylation de Ser133 du domaine KID de CREB induit son activation : CREB change de conformation et interagit avec le domaine KIX de CBP (ou de son paralogue p300).

CBP agit comme "échaffaudage" pour l'ensemble des molécules impliquées dans la transcription. Son interaction avec les FT spécifiques liés à leurs éléments de réponse au niveau du promoteur permet son interaction avec différents FT généraux (voir ci-dessous) tels que TBP ("TATA box Binding Protein" - composant de TFIID), TFIIB, TFIIE et TFIIF. CBP participe donc à la formation et à la stabilisation du complexe actif nécessaire pour la transcription par l'ARN polymérase II appelé complexe d'initiation de la transcription.

CBP possède une activité histones-acétylase sur des lysines de l'extrémité N-terminale des histones. Cette acétylation induit la déstabilisation des nucléosomes et permet le passage de l'ARN polymérase. CBP recrute des protéines appelées "Nucleosome Assembly Proteins" impliquées dans le contrôle de l'organisation des réseaux de nucléosomes formant la chromatine.

Elements de réponse ("Response element" - RE)
Agent régulateur	Module	Séquence consensus	paires de bases d'ADN fixées	Facteur	Masse molaire (Da)
Choc thermique	HSE	CNNGAANNTCCNNG	27 bp	HSTF	93,000
Glucocorticoide	GRE	TGGTACAAATGTTCT	20 bp	Receptor	94,000
Cadmium	MRE	CGNCCCGGNCNC	--------	?	--------
Ester de phorbol	TRE	TGACTCA	22 bp	AP1	39,000
Sérum	SRE	CCATATTAGG	20 bp	SRF	52,000
Anti-oxydant	ARE	GTGACTCAGC	--------	--------	--------
Phéromone		ACAAAGGGA	--------	--------	--------
Hypoxie	HRE	CCACAGTGCATACGT GGGCTCCAACAGGTC CTCTCCCTCCCATGCA	--------	"Hypoxia Inducible Factor"	826 aa
"Peroxisome Proliferator Activated Receptor" (PPAR)	PPRE	aGG_CAAAGGT(CG)A	--------	PPAR	59,000
Stéroides (progèsterone, androgène, minéralcorticoides, glucocorticoides)		AGAACAxxxACAAGA (séquence répétée inversée)	--------	--------	--------

Eléments agissant en "cis" (action d'une molécule sur elle-même) : séquences consensus de l'ADN située en amont des sites d'initiation de la transcription. Exemple : l'opéron lac. PLACE : "A Database of Plant Cis-acting Regulatory DNA Elements"
Procaryotes	région -10 ou boîte Pribnow - Schaller (10 nucléotides avant le site d'initiation de la transcription) région -35 séquence "opérateur" de l'opéron lactose	Séquence consensus : TATAAT Séquence consensus : TTGACA -----------
Eucaryotes - Archaea	région -10 ou boîte Goldberg - Hogness ou "TATA box"	TATAAT
Eléments agissant en "trans" (action d'une molécule sur une autre) : ce sont les facteurs de transcription (protéines) qui se fixent sur ces séquences d'ADN (les éléments agissant en "cis") .

b. Quelques définitions : promoteur, activateur, enhancer, répresseur, opérateur, silencer, insulator

Une séquence amplificatrice ("enhancer") est une région de l'ADN (de 50 à 1500 paires de bases) sur laquelle se fixent les FT pour activer la transcription de gène(s).

Les "enhancers" sont des éléments agissant en cis ("cis-acting elements") qui peuvent se situer jusqu'à 1 million de paires de bases (en amont ou en aval) des gènes régulés. Il existe des centaines de milliers de "enhancers" dans le génome humain.

Les protéines qui, en se fixant sur un promoteur de l'ADN (exemple : les FT) ou en participant à la fixation d'autres protéines sur un promoteur de l'ADN, activent la transcription de gène(s) sont appelées globalement activateurs.

Exemple : La protéine "Catabolite Activator Protein" - CAP (ou "cAMP Receptor Protein") active la transcription de l'opéron lac chez Escherichia coli.

Une séquence opérateur est une région de l'ADN qui est proche d'un promoteur (voire qui la recouvre en partie) et sur laquelle se fixe un répresseur.

Un répresseur est une protéine qui empêche la fixation de l'ARN polymérase sur le promoteur et inhibe (réprime) ainsi la transcription de gène(s).
Un répresseur peut aussi se fixer sur un ARN messager et empêcher la traduction en protéine.
Un répresseur peut aussi se fixer sur des régions appelées "silencers" : la transcription de gènes est aussi réprimée.

Les séquences appelées "insulator" ("isolant") empêche un "enhancer" (ou un "silencer") d'activer (ou d'inhiber) la transcription d'un autre gène voisin. Ces séquences se situent entre un "enhancer" (ou un "silencer") et le promoteur. Les "insulator" des Eucaryotes ont une séquence de nucléotides CCCTC sur laquelle se fixent des protéines appelées facteurs de fixation à CCCTC ("CCCTC-Binding Factor" - CTCF).

Il existe d'autres séquences régulatrices sur lesquelles se fixent différents FT. Elles sont principalement situées en amont (5') du site d'initiation de la transcription, mais quelques unes sont en aval (3') voire au sein de la séquence du gène.

Différentes combinaisons de FT ont des effets régulateurs différents sur l'initiation de la transcription. Chaque type de cellule possèdent des combinaisons de FT qui lui sont caractéristiques et qui contribuent dans une large mesure au phénotype de cette cellule.

Voir un cours sur la transcription et la traduction.

Illustration

Figure (a) ci-dessous. Représentation du domaine associé topologiquement ("Topologically Associated Domain" - TAD) sur lequel sont fixées la cohésine et le CTCF.

Le CTCF est une protéine à 11 doigts de zinc hautement conservée. C'est une protéine clé du contrôle de l'activation transcriptionnelle d'un gène qui peut fonctionner comme un activateur transcriptionnel, un répresseur ou un "insulator" en bloquant la communication entre les "enhancers" et les promoteurs.

facteur transcription factor promoteur response element reponse activateur enhancer represseur operateur silencer insulator ADN DNA binding domain biochimej

Source : Henley & Koehler (2021)

Figure (b) ci-dessus. Vue agrandie du modèle de séparation de phases lors de l'activation transcriptionnelle : les facteurs de transcription (TF1, TF2, ...) et les co-activateurs forment des condensats transcriptionnels qui recouvrent l'"enhancer" et le promoteur. PIC : complexe de pré-initiation ; RNA Pol II : ARN polymérase II.

c. Les facteurs de transcription généraux

C'est une classe majeure de FT chez les Eucaryotes dont un grand nombre ne se fixent pas à l'ADN mais font partie du complexe de pré-initiation qui interagit directement avec l'ARN polymérase II.

Les facteurs de transcription généraux les plus courants sont TFIIA, TFIIB, TFIID, TFIIE, TFIIF et TFIIH (TFII : "Transcription Factors regulating RNA pol II").

Figure ci-dessous : "Basal transcription factors" (KEGG). La figure originale est interactive et permet d'obtenir un très grand nombre d'informations.

facteur general transcription factor promoteur response element reponse activateur enhancer represseur operateur silencer insulator ADN DNA binding domain biochimej

Le FT général TFIID se fixe sur la "TATA-box" (il est aussi appelé "TATA-box Binding Protein" - TBP).

facteur transcription factor promoteur response element reponse activateur enhancer represseur operateur silencer insulator ADN DNA binding domain biochimej

La séquence consensus "CCAAT-box" (GG[T/C]CAATCT) se situe 50 à 130 paires de bases en amont du site d'initiation de la transcription. La protéine C/EBP ("CCAAT-box/Enhancer Binding Protein") se fixe sur cette séquence. CREB = "cAMP Response Element Binding protein".

d. Les autres types de facteur de transcription

Ils régulent la transcription des gènes en se fixant aux régions amplificatrices ("enhancer") de l'ADN adjacentes aux gènes régulés.

Ces FT assurent que les gènes sont exprimés dans la bonne cellule, au bon moment et en bonne quantité, selon les changements des besoins de l'organisme (développement, contrôle du cycle cellulaire, réponse à des signaux intra-cellulaires, adaptation à l'environnement, interaction avec des pathogènes, ...).

2. Classification des facteurs de transcription

Il existe des centaines de FT.

classification facteur transcription factor promoteur response element reponse activateur enhancer represseur operateur silencer insulator ADN DNA binding domain biochimej

Source : "Cell signaling biology" - Module 4

A. Certains FT sont toujours présents dans le noyau et actifs constitutivement.

B. Les FT dont l'activité est régulée se divisent en 2 groupes :

les FT dont la régulation est liée au développement (ils sont souvent spécifiques d'un type de cellule. Par exemple : les FT qui régissent la différenciation musculaire : MyoD et Myf5)
les FT dont l'activité dépend de signaux

C. Les FT dont l'activité dépend de signaux sont eux-mêmes subdivisés :

les FT régulés par les hormones stéroïdes
les FT régulés par les signaux internes ou
les FT régulés par les récepteurs de surface de la cellule

D. Les FT dont l'activité dépend les récepteurs de surface de la cellule sont eux-mêmes subdivisés :

les FT qui résident dans le noyau
les FT qui font la navette entre le noyau et le cytoplasme
les FT cytoplasmiques latents qui migrent dans le noyau lors de l'activation du récepteur

Exemple de classification des facteurs de transcription chez l'homme
Superclasse	Classe	Superclasse	Classe
1 Basic domains	1.1 Basic leucine zipper factors (bZIP) 1.2 Basic helix-loop-helix factors (bHLH) 1.3 Basic helix-span-helix factors (bHSH)	6 Immunoglobulin fold	6.1 Rel homology region (RHR) factors 6.2 STAT domain factors 6.3 p53 domain factors 6.4 Runt domain factors 6.5 T-Box factors 6.6 NDT80 domain factors 6.7 Grainyhead domain factors
2 Zinc-coordinating DNA-binding domains	2.1 Nuclear receptors with C4 zinc fingers 2.2 Other C4 zinc finger-type factors 2.3 C2H2 zinc finger factors 2.4 C6 zinc cluster factors 2.5 DM-type intertwined zinc finger factors 2.6 CXXC zinc finger factors 2.7 C2HC zinc finger factors 2.8 C3H zinc finger factors 2.9 C2CH THAP-type zinc finger factors	7 beta-Hairpin exposed by an alpha/beta-scaffold	7.1 SMAD/NF-1 DNA-binding domain factors 7.2 GCM domain factors
3 Helix-turn-helix domains	3.1 Homeo domain factors 3.2 Paired box factors 3.3 Fork head / winged helix factors 3.4 Heat shock factors 3.5 Tryptophan cluster factors 3.6 TEA domain factors 3.7 ARID domain factors	8 beta-Sheet binding to DNA	8.1 TATA-binding proteins 8.2 A.T hook factors
4 Other all-alpha-helical DNA-binding domains	4.1 High-mobility group (HMG) domain factors 4.2 Heteromeric CCAAT-binding factors	9 beta-Barrel DNA-binding domains	9.1 Cold-shock domain factors
5 alpha-Helices exposed by beta-structures	5.1 MADS box factors 5.2 E2-related factors 5.3 SAND domain factors	0 Yet undefined DNA-binding domains	0.1 AXUD/CSRNP domain factors 0.2 NonO domain factors 0.3 Leucine-rich repeat flightless-interacting proteins 0.4 NFX1-type putative zinc finger factors 0.0 Uncharacterized

Exemple de la sous-classification de la super classe "Basic domains"

1.1 Basic leucine zipper factors (bZIP)

1.1.1 Jun-related factors
1.1.2 Fos-related factors
1.1.3 Maf-related factors
1.1.4 B-ATF-related factors
1.1.5 XBP-1-related factors
1.1.6 ATF-4-related factors
1.1.7 CREB-related factors
1.1.8 C/EBP-related
1.1.0 ZIP only

1.2 Basic helix-loop-helix factors (bHLH)

1.2.1 E2A-related factors
1.2.2 MyoD / ASC-related factors
1.2.3 Tal-related factors
1.2.4 Hairy-related factors
1.2.5 PAS domain factors
1.2.6 bHLH-ZIP factors
1.2.8 HLH domain only

1.3 Basic helix-span-helix factors (bHSH)

1.3.1 AP-2

3. Les facteurs de transcription généraux ("General Transcription Factors")

L'initiation de la transcription est plus complexe chez les Eucaryotes car les ARN polymérases ne reconnaissent pas directement leurs séquences promotrices : 5 facteurs de transcription généraux ("General Transcription Factor" : TFII-B, TFII-D, TFII-E, TFII-F et TFII-H) doivent d'abord médier la fixation des ARN polymérases et l'initiation de la transcription.

Le complexe complet [ARN polymérase - facteurs de transcription - séquence ADN du promoteur] est appelé complexe de pré-initiation de la transcription.

Ce complexe assure :

le chargement précis de l'ARN polymérase II (Pol II) sur le bon site de démarrage de la transcription
la déshybridation (ouverture) de l'ADN au niveau du promoteur
le relarguage de Pol II du promoteur

Cependant, certains mécanismes moléculaires et certaines fonctions de ce complexe sont encore inconnus, notamment par manque d'informations structuralles en raison de la taille gigantesque du complexe de pré-initiation (2 millions Da).

En 2013, un système a été reconstitué in vitro pour étudier, par cryo-microscopie électronique, l'assemblage progressif de TBP ("TATA-Binding Protein"), Pol II et des facteurs de transcription généraux (TFIIA, TFIIB, TFIIF, TFIIE et TFIIH) sur un promoteur.

Stratégie de reconstruction du complexe de pré-initiation humain par assemblage séquentiel.

facteur transcription factor TFII complexe initiation ADN DNA polymerase PolII nuclear receptor biochimej

Source : He et al. (2013)

(a) : schéma de l'ADN mentionnant les positions relatives des éléments fondamentaux du promoteur utilisé et du site de restriction SalI.

(b) à (e) : intermédiaires de l'assemblage du complexe de pré-initiation [TBP - TFIIA - TFIIB - ADN - Pol II] (b) puis addition de TFIIF (c) puis addition de TFIIE (d) puis addition de TFIIH (e).

Les modèles obtenus à différentes étapes de l'initiation de la transcription décrivent les interactions entre les molécules de ce complexe :

ils expliquent comment TFIIF recrute Pol II et le promoteur pour stabiliser le complexe "fermé" de pré-initiation et le complexe promoteur "ouvert".
ils montrent que la localisation des hélicases TFIIH XPD et TFIIH XPB est en faveur d'un modèle de translocation de l'ADN et souligne le rôle essentiel de XPB dans l'ouverture du promoteur.

4. Les structures des domaines de fixation de l'ADN des facteurs de transcription

a. Les différentes structures de l'ADN

La "lecture directe" (ou "lecture de base") est un mécanisme de reconnaissance où les FT discriminent différentes bases dans une séquence d'ADN par l'intermédiaire d'interactions directes (ou médiées par l'eau) avec les bases de l'ADN.

La "lecture indirecte" (ou "lecture de forme") est un mécanisme où les FT discriminent en fonction de la déformabilité de la séquence d'ADN ou des différences structurales des molécules d'ADN.

Rappels sur les différents types de structure de l'ADN

facteur transcription factor ADN structure groove protein DNA interaction biochimej

Source : Rohs et al. (2010)

Figures a et e : l'ADN de type A (séquence alternée d(GC)₇) a un grand sillon profond (9,5 Å), étroit (2,2 Å) et fortement négatif et un petit sillon large (10,9 Å), peu profond avec une surface hydrophobe partiellement due aux C3′ des désoxyriboses qui sont exposés.

Figures b, c et f : l'ADN de type B (séquence alternée d(GC)₇) a un grand sillon large (11,4 Å), peu profond (4,0 Å) et assez peu négatif et un petit sillon étroit (5,9 Å), profond (5,5 Å) et négatif.

Figures d et h : l'ADN de type Z (séquence alternée d(GC)₇) n'a pas de grand sillon (largeur 13,2 Å et pas de profondeur définie) et une surface positive sur les faces opposés des bases et un petit sillon étroit (2,4 Å), profond (5,0 Å) et négatif.

Figure g : séquence alternée d(AT)₇) d'ADN de type B qui montre les différences de potentiel électrostatique entre GC et AT. Par exemple : groupe amino positif de la guanine dans le petit sillon GC et groupe méthyle neutre de la thymine dans le grand sillon AT.

Superfamille classification SCOP	Architecture du domaine de fixation de l'ADN	Motif structural
Histone-fole, Putative DNA-binding domain, Replication modulator SeqA, C-terminal DNA-binding domain, Skn-1, Phage replication organizer domain	mainly α	---------
Leucine zipper domain, HLH, helix-loop-helix DNA-binding domain		Helix-loop-helix
Homeodomain-like, lambda repressor-like DNA-binding domains, HMG-box, C-terminal effector domain of the bipartite response regulators, TrpR-lk, Sigma3 and sigma4 domains of RNA polymerase sigma factors, T4 endonuclease V, KorB DNA-binding domain-like, ARID-like		Helix-turn-helix
Winged helix DNA-binding domain	mainly α with a small β-ribbon (wing)	Winged Helix-turn-helix
WD40 repeat-like	mainly β	---------
p53-like transcription factors		Immunoglobulin-like β-sandwich
TATA-box binding protein-like		TBP β-sheet
E set domains		Immunoglobulin-like β-sandwich
Chromo domain-like, Transcription factor IIA (TFIIA), AbrB/MazE/MraZ-like		β-barrel
Uracil-DNA glycosylase-like, His-Me finger endonucleases, IHF-like DNA-binding proteins, RNase A-like, DNase I-like, SRF-like, Viral DNA-binding domain, UDP-Glycosyltransferase/glycogen phosphorylase, FMT C-terminal domain-like, Methylated DNA-protein cysteine methyltransferase domain, 5' to 3' exonuclease catalytic domain, Transposase IS200-like, Bet v1-like, DNA-binding domain of intron-encoded endonucleases, Cryptochrome/photolyase FAD-binding domain, SMAD MH1 domain, Xylose isomerase-like, Holliday junction resolvase RusA	mixed α/β	---------
Glucocorticoid receptor-like, C2H2 and C2HC zinc fingers, Zn2/Cys4 DNA-binding domain, Zn2/Cys6 DNA-binding domain, Zinc finger design, Retrovirus zinc finger-like domains		Zinc finger
Ribbon-helix-helix, PIN domain-like		Ribbon-helix-helix
GCM domain		β-sheet
DNA/RNA polymerases, nucleotidyltransferase, Ribonuclease H-like, Lesion bypass DNA Polymerase, DNA repair protein MutS, DNA breaking-rejoining enzymes, P-loop containing nucleoside triphosphate hydrolases, DNA/RNA polymerases, replication terminator protein (Tus), DNA topoisomerase IV, α subunit, Metallo-dependent phosphatases, RNA polymerase, ATP-dependent DNA ligase DNA-binding domain, Thioredoxin-like	multidomain, mixed α/β	---------
DNA-binding domains of HMG-I(Y)	peptide	AT-hook
Le motif "AT-hook" est constituée d'une séquence palindromique conservée dont le coeur est Pro-Arg-Gly-Arg-Pro avec un nombre variable de Lys et Arg chargées positivement de chaque côté de la séquence de base. Ce motif se fixe dans le petit sillon d'ADN riche en adénine et thymine (AT) d'où son nom.

b. Motif hélice-tour-hélice ("helix-turn-helix" - HTH)

Il existe plusieurs types de motifs HTH basés sur l'arrangement spatial de leurs hélices :

di-hélical (HTH le plus simple)
tri-hélical (exemple : FT Myb)
tétra-helical qui possède une hélice α C-terminale additionnelle (exemple : "LuxR-type DNA-binding HTH domain" des bactéries, répresseurs TetR)
Winged helix-turn-helix (wHTH) : structure α/β constituée de 3 hélices α N-terminales et d'un feuillet β antiparallèle composé de 3 ou 4 brins. Exemples :
1. le FT "E26 transformation-specific" a une composition α1-β1-β2-α2-α3-β3-β4 où la 3ème hélice reconnaît l'ADN
2. HNF-3γ est un membre d'une grande famille de FT de gènes de la drosophile
3. répresseur cro du bactériophage 434 et répresseur lambda du bactériophage lambda

c. Homéodomaine, boîte homeobox et domaine POU

Un homéodomaine est un repliement qu'adoptent de nombreux FT qui se fixent sur l'ADN ou l'ARN. Il est présent exclusivement chez les Eucaryotes (transformations corporelles homéotiques, morphogénèse, développement).

C'est un domaine protéique (PFAM PF00046) hautement conservé qui adopte une structure hélice-tour-hélice ("helix-turn-helix" - HTH) de 60 acides aminés dans laquelle 3 hélices alpha sont reliées par des boucles courtes.

facteur transcription factor helix turn homeodomain zipper ZIP biochimej

Source : Alberts et al.

Les 2 hélices N-terminales sont antiparallèles et l'axe de l'hélice C-terminale est à peu près perpendiculaire à celui des deux premières.

L'hélice C-terminale est plus longue et elle est riche en Arg et Lys qui établissent des liaisons hydrogènes avec l'ADN. Par exemple, la chaîne latérale de Arg peut établir 2 liaisons hydrogène avec la base azotée guanine au sein du grand sillon de l'ADN, mais pas avec d'autres bases azotées. Les acides aminés hydrophobes conservés au centre de l'hélice C-terminale accroissent sa compaction.

L'homéodomaine se fixe donc à l'ADN de type B (avec une préférence pour la séquence 5'-ATTA-3') via l'hélice C-terminale qui s'aligne dans le grand sillon de l'ADN et via l'extrémité N-terminale non structurée qui s'aligne dans le petit sillon.

Une boîte homeobox (gènes HOX) est une séquence d'ADN d'environ 180 paires de base des gènes qui codent les protéines contenant un homéodomaine.

Le domaine POU est trouvé dans une famille de protéines qui contiennent des homéodomaines très conservés. L'acronyme POU est dérivé des noms de 3 FT :

Pituitary-specific Pit-1
Octamer transcription factor proteins Oct-1 and Oct-2 (séquence octamère ATGCAAAT)
neural Unc-86 transcription factor (Caenorhabditis elegans)

d. Motif hélice-boucle-hélice ("basic helix-loop-helix" - bHLH)

Ce motif (PFAM PF00010) est composé de 60 acides aminés :

la région basique N-terminale (15 acides aminés avec un nombre élevé d'acides aminés basiques) est impliquée dans la liaison à l'ADN.

la région HLH C-terminale (acides aminés principalement hydrophobes) est impliquée dans la dimérisation. Cette région C-terminale forme 2 hélices α amphipathiques séparées par une boucle de séquence et de longueur variables.

structure facteur transcription factor basic helix loop bHLH biochimej

Source : Wikipedia

En général, les FT qui possèdent ce domaine forment des dimères : l'une des hélices est souvent plus petite et la flexibilité de la boucle permet la dimérisation par compaction contre l'autre hélice.

La plus grande hélice contient généralement les sites de fixation à l'ADN sur une séquence consensus appelée "E-box" (5'-CANNTG-3') dont la séquence canonique est un palindrome appelée "G-box" (5'-CACGTG-3').

Exemples de FT qui possèdent ce domaine : C-Myc, N-Myc, MyoD, Myf5, scleraxis, neurogenines, OLIG1, OLIG2

e. Les structures "coiled coil" et le motif "leucine zipper"

Une structure dite "coiled coil" (bobine enroulée) est une structure des protéines, où les hélices α sont enroulées l'une dans l'autre comme les brins d'une corde tressée. Ces hélices contiennent 3,5 résidus d'acides aminés par tour.

Les dimères et les trimères d'hélices sont les types les plus courants.

Cette structure a été proposée indépendamment par Linus Pauling et Corey, et par Crick en 1953.

coiled coil leucine zipper heptad repeat facteur transcription factor biochimej

Source : "Oregon state University"

Un domaine "leucine zipper" est une structure de type "coiled coil" : c'est une structure super-secondaire constituée de deux hélices alpha parallèles enroulées l'une dans l'autre sur la gauche ("left-handed parallel dimeric coiled-coil") et stabilisée par des résidus leucine.

Le domaine "leucine zipper" est le domaine de dimérisation des facteurs de transcription de la super-classe bZIP ("Basic helix-loop-helix/leucine zipper") des Eukaryotes.

Cette super classe contient les classes ou familles suivantes : "Leucine zipper factors", "Helix loop helix factors", "Helix loop helix/leucine zipper factors", "NF family", "RF-X family" et "bHSH family".

Les facteurs de transcription CREB ("cAMP response element-binding protein") et GCN4 ("General control protein GCN4") appartiennent également à la super-classe bZIP.

Une structure "coiled coil" contient un motif répété de sept acides aminés ("heptad repeat") dont la nomenclature est (abcdefg)_n, où a et d sont des acides aminés hydrophobes.

coiled coil leucine zipper heptad repeat facteur transcription factor biochimej

Source : "The heptad repeat of the coiled-coil structure"

Au sein du domaine "leucine zipper", à chaque deuxième tour d'hélice une leucine est en contact direct avec une leucine de l'autre hélice.

Les hélices alpha des structures "coiled coil" sont dites amphipathiques :

les acides aminés aux positions a et d sont situés dans une zone interne hydrophobe qui participe à la dimérisation via des interactions entre les hélices α parallèles
les acides aminés aux positions b, c, e et f sont exposés à la surface de la protéine

f. Le motif "Zinc finger" ("doigt de zinc")

Le motif en doigt de zinc est un motif de fixation à l'ADN constitué de Cys et His espacées de manière spécifique et qui se lient à des atomes de zinc (exemples : TFIIIA et les FT de la famille des hormones stéroïdes).

Les protéines qui ont un motif Zinc finger sont trés diverses et ne se limitent pas aux facteurs de transcription.

En effet, certaines sont impliquées dans la fixation d'autres protéines qui interviennent dans de très nombreux processus biologiques (réplication et réparation, transcription et traduction, métabolisme et signalisation, prolifération cellulaire et apoptose, ...).

Il existe donc plusieurs types de repliement des domaines avec un motif Zinc finger :

Motif Zinc-finger	caractéristiques	Exemples de protéines et code PDB
Cys₂His₂	Motif le plus courant des FT des Mammifères dont la séquence consensus est Cys-X_2,4-Cys-X₃-Phe-X₅-Leu-X₂-His-X₃-His. Chaque motif Zinc finger (environ 30 acides aminés) est composé d'une courte épingle à cheveux β N-terminale puis d'une petite boucle et d'une hélice α. Sa structure est stabilisée par 2 Cys et 2 His liées à un atome de zinc.	1NCS, 1ZFD, 1TF6, 1UBD, 2GLI, 1BHI
"Gag knuckle"	Il ressemble au motif Cys₂His₂ mais il est plus court (environ 20 acides aminés).	Protéines rétrovirales gag (nucléocapside)
"Treble clef"	Motif composé d'une épingle à cheveux β N-terminale et d'une hélice α C-terminale.
"Zinc ribbon"	Motif composé de deux épingles à cheveux β et un feuillet β antiparallèle à 3 brins (liaisons hydrogène avec l'une des deux épingles). C'est le groupe qui contient le plus de types de repliements différents.	Facteur d'initiation de la transcription TFIIB (1PFT), facteur d'élongation de la transcription TfIIS (1TFI)
Zn₂/Cys₆		Protéines de régulation de la transcription Gal4 (1D66A), Ethanol regulon transcriptional activator (2ALCA)
"TAZ2 domain like"	Le repliement des domaines TAZ ("Transcription Adaptor putative Zinc finger") est tout α.	CBP ("CREB-binding protein") et p300 : histones acétyltransférases (EC 2.3.1.48) qui catalysent l'acétylation réversible des histones dans les nucléosomes pour réguler la transcription via le remodelage de la chromatine (1L8C)

Visualisation de la structure Zinc finger de Zif268 de Mus musculus à une résolution de 2,1 Å

Code PDB : 1ZAA

5. Les récepteurs nucléaires

a. Rôle et mode d'action des récepteurs nucléaires

Il en existe plus de 150 repertoriés, dont 48 connus chez l'homme. Voir la base de données des récepteurs nucléaires : "NURSA" - The Nuclear Receptor Signaling Atlas

Un grand nombre de récepteurs nucléaires ont un rôle de facteur de transcription : ce sont des protéines qui agissent dans le noyau (en relayant des signaux hormonaux) et qui modulent l'expression des gènes. Ces récepteurs agissent en trans : ils induisent l'expression de gènes codant des protéines qui à leur tour activent de nombreux autres gènes.

Certains récepteurs nucléaires ont un autre rôle en agissant sur d'autres voies de signalisation intracellulaire.

Les récepteurs nucléaires peuvent être classés en deux principales catégories selon leur mécanisme d'action et leur distribution sub-cellulaire en absence de leur ligand.

- les récepteurs nucléaires de type I situés dans le cytosol puis délocalisés dans le noyau :

La fixation du ligand sur un récepteur nucléaire de type I initialement situé dans cytosol induit :
1. la dissociation d'une protéine de choc thermique
2. l'homo-dimérisation du récepteur nucléaire
3. la translocation du récepteur nucléaire (via un transport actif) du cytoplasme dans le noyau
4. et enfin la fixation du récepteur nucléaire sur une séquence spécifique de l'ADN appelée élément de réponse à l'hormone ("Hormone Responsive Element" - HRE).
Exemples de récepteurs nucléaires de type I : récepteurs des androgènes, récepteurs d'oestrogènes, récepteur des glucocorticoïdes et récepteur de la progestérone.

- les récepteurs nucléaires de type II :

Quel que soit leur état (ligand fixé ou non fixé), les récepteurs de type II sont toujours maintenus dans le noyau et ils sont fixés sous forme d'hétéro-dimères (par exemple avec un autre récepteur de type "retinoid X receptor") à l'ADN.
1. en l'absence de ligand, les récepteurs nucléaires de type II sont souvent complexés à des protéines co-répresseurs.
2. la fixation du ligand sur les récepteurs nucléaires de type II induit :
3. la dissociation des co-répresseurs et le recrutement de protéines co-activatrices de la transcription
4. des protéines supplémentaires (dont l'ARN polymérase) sont ensuite recrutées par le complexe [récepteur nucléaire de type II/ADN] pour la traduction de l'ADN en ARN messager.
Exemples de récepteurs nucléaires de type II : récepteur de l'acide rétinoïque, le récepteur X des rétinoïdes et le récepteur de l'hormone de la thyroïde.

Il existe 2 autres catégories "mineures" de récepteurs nucléaires :

les récepteurs nucléaires de type III (principalement la sous-famille 2) ressemblent aux récepteurs nucléaires de type I puisqu'ils se fixent à l'ADN sous forme d'homodimères. Cependant, les récepteurs nucléaires de type III se fixent à une séquence HRE répétée directe au lieu d'une séquence HRE répétée inversée (exemple de séquence répétée inversée : 5'TTACGnnnnCGTAA3').

les récepteurs nucléaires de type IV se fixent à l'ADN sous forme de monomères ou de dimères, mais seul un domaine de liaison à l'ADN du récepteur se fixe sur une seule moitié de la séquence HRE.

b. Structure des récepteurs nucléaires

Ils ont une structure globale conservée. Ils sont constitués de 2 domaines :

un domaine de liaison à l'ADN ("DNA Binding Domain"- DBD) sur des séquences d'ADN particulières qui se trouvent à proximité des gènes qu'ils régulent. Ces séquences sont appelées éléments de réponse à l'hormone ("Hormone Responsive Element" - HRE).
un domaine de liaison au ligand ("Ligand Binding Domain" - LBD).

facteur transcription factor recepteur nucleaire nuclear receptor DNA binding domain response element biochimej

Source : "Activation des récepteurs nucléaires"

La région N-terminale (domaine A / B) est la plus variable en ce qui concerne la taille et la séquence en acides aminés.
Il existe une forte homologie de séquence au sein des domaines DBD et LBD , respectivement.
Les domaines AF1 et AF2 sont impliqués dans l'activation de la transcription.

Les récepteurs nucléaires peuvent être classés en 4 catégories (voir ci-dessus) en fonction du type de dimérisation et des séquences d'ADN reconnues. Les acides aminés impliqués dans la dimérisation des récepteurs pour leur activité transcriptionnelle, se trouvent dans les domaines C et [E / F].

La séquence en acides aminés appelée signal de localisation nucléaire ("Nuclear Localisation Signal" - NLS) permet au récepteur d'être adressé au noyau et d'y rester.

Une fois activés, ces récepteurs se fixent sur l'ADN sous forme d'homo- ou d'hétérodimères.

Figure ci-dessous : relation entre dimérisation des récepteurs nucléaires et la fixation de leurs ligands.

facteur transcription factor recepteur nucleaire nuclear receptor DNA binding domain response element biochimej

L'absence de domaine A/B permet la dimérisation même en absence du ligand.

La fixation du ligand s'oppose à l'inhibition qu'exerce le domaine A/B sur la dimérisation des domaines E en stabilisant la conformation du dimère.

Voir ci-dessous le mode d'activation des récepteurs nucléaires.

Figure ci-dessous : structure cristalline (résolution 2.9 Å) des multiples domaines de HNF-4α humain (sous forme d'homodimère) fixé à son élément de réponse et à des peptides co-activateurs.

facteur transcription factor recepteur nucleaire nuclear receptor DNA binding domain response element biochimej

Source : Chandra et al. (2013)

Une arginine cible de la méthylation par PRMT1 et une serine cible de la protéine kinase C contribuent au maintien des interactions entre domaines.

Ces modification post-traductionnelles induisent un changement de la fixation de l'ADN.

Le récepteur "Hepatocyte Nuclear Factor 4α" (HNF-4α ou NR2A1) est un récepteur nucléaire - facteur de transcription.

HNF-4α est la protéine se fixant à l'ADN la plus abondante dans le foie où environ 40% des gènes transcrits possèdent un élément de réponse à HNF-4α.

Ces gènes sont impliqués en grande partie dans la néoglucogénèse et le métabolisme des lipides. Les mutations de HNF-4α sont donc liées à l'hypoglycèmie hyperinsulinèmique et au diabète de type 1.

c. Mode d'activation des récepteurs nucléaires

Tant que le récepteur n'a pas fixé le ligand, il est dans une conformation inactive car le domaine DBD est bloquée par un complexe protéique inhibiteur.

Quand le domaine LBD a fixé le ligand, il change de conformation et l'inhibiteur est relargué.

Le domaine DBD est libre et il se fixe sur la séquence d'ADN spécifique HRE, ce qui induit l'activation de la trancription des gènes.

facteur transcription factor recepteur nucleaire nuclear receptor DNA binding domain response element biochimej

Les domaines DBD sont des séquences d'environ 66 à 68 acides aminés, dont 9 cystéines conservées, qui adoptent une structure en doigt de zinc de type C4 (4 cystéines).

facteur transcription factor doigt zinc finger biochimej

Source : Nuclear hormone receptors

La structure hélicoïdale de la "P-box" permet des contacts avec le grand sillon de l'hélice d'ADN.

Les acides aminés de la "D-box" sont importants pour les interactions avec les groupements phosphates de l'ADN et pour la dimérisation du récepteur.

d. Quelques ligands importants des récepteurs nucléaires

Des petites molécules lipophiles peuvent traverser la membrane plasmique ou entrer dans le noyau (via les pores nucléaires) et donc entrer dans les cellules.

Les médiateurs de ces petites molécules lipophiles sont les récepteurs nucléaires.

Ces petites molécules lipophiles contrôlent donc indirectement de nombreux processus biologiques (reproduction, développement, métabolisme, inflammation, fonctions immunitaires, ...) chez les Eucaryotes.

Ces petites molécules lipophiles sont essentiellement :

le cholestérol
les hormones stéroïdes (dérivées du cholestérol)
1. les glucocorticoïdes (exemple : cortisol)
2. les minéralocorticoïde (exemple : aldostérone)
3. les androgènes (exemple : testostérone)
4. les œstrogènes (exemple : estradiol)
5. les progestagènes
les acides biliaires (dérivés du cholestérol)
des dérivés d'acides aminés tels que les hormones thyroïdiennes (thyroxine, triiodothyronine) et la mélatonine
des vitamines comme l'acide rétinoïque et la vitamine D3 (cholecalciférol)
les leukotriènes (dérivés d'acides gras comme l'acide eicosapentaénoïque)
l'hème

facteur transcription factor recepteur nucleaire nuclear receptor ligand activator glucocorticoide cholesterol biochimej

Voir une liste très complètes des récepteurs nucléaires connus chez l'homme.

Certains récepteurs nucléaires n'ont pas de ligand identifié : ils sont dit "orphelins".

e. "Peroxisome proliferator-activated receptor" (PPAR)

Les récepteurs activé par les proliférateurs de peroxysomes ("Peroxisome Proliferator-Activated Receptors" - PPAR) sont des FT activés par un ligand qui régulent la transcription de gènes impliqués dans la différenciation cellulaire et divers processus métaboliques, en particulier l'homéostasie du glucose et des lipides. Les PPAR sont des récepteurs nucléaires activés par des acides gras libres (ω-3) et des éicosanoïdes et ils appartiennent à la superfamille des récepteurs des stéroïdes.

Il existe 3 isotypes principaux de PPAR : PPAR α (NR1C1), PPAR β (également appelé PPAR δ, NUC1 ou FAAR) et PPAR γ (NR1C3 - il existe 3 formes : γ1, γ2 et γ3) qui se distinguent par un profil d'expression spécifique du tissus et du stade de développement et par la nature des ligands lipidiques et éicosanoïdes capables d'activer chaque type de récepteur.

Le domaine DBD contient 2 motifs en doigt de zinc et le domaine LBD a une structure en 13 hélices α et 4 feuillets β.

Tous les PPARs forment des hétérodimères avec le récepteur des rétinoïdes X (récepteur nucléaire activé par l'acide rétinoïque 9-cis). La séquence de l'élément de réponse des PPAR est 5'-AGGTCANAGGTCA-3'.

6. Quelques exemples de familles de facteurs de transcription de plantes et d'animaux liés aux stress biotiques et abiotiques

Famille AP2 (APETALA2) / EREBP ("ethylene-responsive element binding proteins") : ils sont spécifiques des plantes. Ils contiennent un domaine de fixation à l'ADN appelé AP2. La sous-famille de facteurs de transcription DREB ("dehydration responsive element binding proteins") fait partie de cette famille.

Famille bZIP ("basic leucine zipper") : leur nom vient du fait qu'ils contiennent un domaine de fixation à l'ADN mixte constitué d' une séquence en acides aminés basiques et d'un motif riche en leucine à intervalles réguliers ("leucine zipper"). Les facteurs de transcription GBF1, GBF2 et GBF3 ("Arabidopsis bZlP family of G-box binding factors") intéragissent avec le motif palindrome "G-box" (CCACGTGG) trouvés dans de nombreux promoteurs de plantes.

Famille HSF : ("heat shock transcription factor") : ils sont trimériques avec un domaine de fixation à l'ADN qui reconnaît la séquence répétée (nGAAn) et un domaine impliqué dans l'oligomérisation. Ils sont impliqués dans la réponse dite "de choc thermique" et la synthèse d'HSP ("heat shock proteins"). Il existe 3 classes (A, B et C).

Ces facteurs de transcription sont organisés en modules fonctionnels comme le facteur de transcription AtHsfA2 de Arabidopsis :

le domaine N-terminal de fixation à l'ADN, caracterisé par un motif hélice-coude-hélice, qui se fixe au "heat stress elements" (HSE) du promoteur des gènes de réponse Hsf.
un domaine qui contient des séquences répétées d'acides aminés hydrophobes (HR-A/B) impliqué dans l'oligomérisation du facteur de transcription
un groupe d'acides aminés basiques (NLS) nécessaires à la localisation dans le noyau via l'interaction avec l'importine
une région riche en leucine à l'extrémité C-terminale (NES) qui agit comme signal d'exportation vers le noyau via l'interaction avec l'exportine
de courts motifs riches en acides aminés hydrophobes et volumineux eux-même dans un environnement de caractère acide (AHA1 et AHA2) forment le domaine essentiel à l'activité transcriptionnelle des facteurs de transcription de la classe A en recrutant les composants de la machinerie de l'ARN polymérase II

facteur transcription factor WRKY DNA binding domain importin abiotic biotic stress plant HSF biochimej

Famille WRKY : ils sont ainsi nommés parce qu'ils possèdent un domaine de fixation à l'ADN (du côté N-terminal) qui contient, une ou deux fois, la séquence en acides aminés (quasi invariante) WRKY.

Ils sont classés en fonction du nombre de motif WRKY et de leur motif "zinc-finger-like" : Cx[4,5]Cx[22,23]HxH ou Cx7Cx23HxC.

Structure de membres des familles bZIP, AP2/ERF, NAC, WRKY, ZF C2H2, HTH et bHLH

Figure ci-dessous :

(I) Structure tertiaire soulignant le domaine de fixation de l'ADN ("DNA Binding Domain" - DBD).
(II) Structure primaire schématique et prédictions des régions intrinsèquement non structurées.
(III) Régions impliquées dans les interactions protéine-protéine et sites de modifications post-traductionnelles.

facteur transcription factor DREB WRKY DNA binding domain abiotic biotic stress plant biochimej

Source : Chandra et al. (2013)

(A) Famille bZIP : CREB de la souris (code PDB 1DH3) et représentation schématique de ABI5.
(B) Famille AP2/ERF : ERF1 de Arabidopsis (code PDB 1GCC) et représentation schématique de TF DREB2A
(C) Famille NAC : ANAC019 de Arabidopsis (code PDB 3SWP) et représentation schématique de ANAC019.
(D) Famille WRKY : WRKY4 de Arabidopsis (code PDB 2LEX) et représentation schématique de WRKY40.

Figure ci-dessous :

facteur transcription factor DREB WRKY DNA binding domain abiotic biotic stress plant biochimej

Source : Chandra et al. (2013)

(E) Famille C2H2 : Zif268 de lasouris Zif268 et représentation schématique de Zat7.
(F) Famille HTH : partie de MYB de TRF2 de l'homme et représentation schématique de MYB15.
(G) Famille bHLH : MyoD de la souris MyoD et représentation schématique de ICE1.

Très souvent, les TF contiennent un domaine de régulation de la transcription ("Transcription Regulatory Domain" - TRD) et un domaine d'activation de la transcription ("Transcriptional Activation Domain" - TAD).

Les TRD ont souvent un taux élevé de séquences de faible complexité et sont donc caractérisés par des régions intrinséquement non structurées avec un désordre intrinsèque ("Intrinsic Disorder" - ID).

7. Liens Internet et références bibliographiques

"Communications et signalisations cellulaires" Y. Combarnous (2004) Ed. Lavoisier - ISBN : 2-7430-0654-4

The Nuclear Receptor Signaling Atlas

Plant Transcription Factor Database

Stress responsive TranscrIption Factor Database

Database of Arabidopsis Transcription Factors

Transcription factor binding sites profiles database

Krishna et al. (2003) "Structural classification of zinc fingers" Nucl. Acids Res. 31, 532 - 550

Foat et al. (2006) "Statistical mechanical modeling of genome-wide transcription factor occupancy data by MatrixREDUCE" Bioinformatics 22, e141 - e149

Pan et al. (2010) "Mechanisms of transcription factor selectivity" Trends Genet. 26, 75-83

Rohs et al. (2010) "Origins of Specificity in Protein-DNA Recognition" Ann. Rev. Biochem. 79, 233 - 269

Article

Rastinejad et al. (2013) "Understanding nuclear receptor form and function using structural biology" J. Mol. Endocrinol. 51, T1-T21

Yamasak et al. (2013) "DNA-binding domains of plant-specific transcription factors: structure, function, and evolution" Trends Plant Sci. 18, 267–276

Lindemose et al. (2013) "Structure, Function and Networks of Transcription Factors Involved in Abiotic Stress Responses" Int. J. Mol. Sci. 14, 5842 - 5878

Villar et al. (2014) "Evolution of transcription factor binding in metazoans - mechanisms and functional implications" Nat. Rev. Genet. 15, 221 - 233

Article

Grygiel-Gorniak B. (2014) "Peroxisome proliferator-activated receptors and their ligands: nutritional and clinical implications" Nutrition J. 13, 17

Yang et al. (2014) "TFBSshape: a motif database for DNA shape features of transcription factor binding sites" Nucl. Acids Res. 42, D148-D155

Shazman et al. (2014) "OnTheFly: a database of Drosophila melanogaster transcription factors and their binding sites" Nuc. Acids Res. 42, D167 - 71

Article

Lambert et al. (2018) "The Human Transcription Factors" Cell 172, 650 - 665

Panigrahi & O'Malley (2021) "Mechanisms of enhancer action: the known and the unknown" Genome Biol. 22, 108

Henley & Koehler (2021) "Advances in targeting 'undruggable' transcription factors with small molecules" Nat. Rev. Drug Discov. 20, 669 - 688

Article