Sequencing the human genome

Genomics is a new science which has had a very important boom in recent years, thanks to advanced technologies of DNA sequencing, advances in bioinformatics and increasingly sophisticated techniques for analysing whole genomes. And I will discuss in this article about whole genomes and their sequencing, mentioning the Human Genome Project, which allowed the sequencing of the human genome.


Sequencing is the set of methods and biochemical techniques aimed at determining the order of nucleotides (A, T, C and G). Its objective is to get in order all nucleotides DNA of an organism.

The first organisms sequenced were two bacteria, Haemophilus influenzae and Mycoplasma genitalium in 1995. One year later, the genome of a fungus was sequenced (Saccharomyces cerevisiae).

From that moment comes the eukaryotic sequencing project: in 1998 Caenorhabditis elegans (nematode) was sequenced, in 2000 Drosophila melanogaster (fruit fly) and in 2001 the human genome.

But, why we sequenced? In the case of human genome, there is the need to know to help alleviate or prevent diseases.

Some of the organisms sequenced are model organisms, which have:

  • Medical importance: there are pathogens and we know diseases that they can cause.
  • Economic importance: organisms that humans eat, they can improve with the molecular techniques.
  • Study of evolution: in 2007 more than 11 species of Drosophila were sequenced and it tried to understand the evolutionary relationship between their chromosomes. It has also been made in mammals (ENCORE Project).


The human genome has 46 chromosomes, it means 23 chromosome pairs (22 autosomal chromosome pairs and 1 sexual chromosome pair, XX or XY depending if it is female or male).

The size of the human genome sequenced is 32,000Mb, 23 chromosomes plus Y chromosome.

The human genome was obtained from the mixture of human genomes to obtain a representation of all humanity genome.


A paradox is a statement that, despite apparently sound reasoning from true premises, leads to a self-contradictory or a logically unacceptable conclusion. In genomes we find two clear paradoxes.

The first one refers to the C-value, which represents the amount of DNA in the genome. As would be expected, if the organism is larger and more complex, the size of its genome will be bigger. However this is not true because there is not this correlation. It is due because the genome not only contains coding genome and proteins, but also contains repetitive DNA. In addition, the most compacted genomes are found in organisms less complexes.

The second paradox refers to the G-value, which represents the number of genes. There is no correlation between the number of genes and its complexity. A clear example is that in human genome has around 20,000 genes and Arabidopsis thaliana (herbaceous plant) has 25,000 genes. The reason is found in the RNA world, which is more complex and it is related to gene regulation.


The human genome sequencing project has been the most important biomedical research project of the whole history. With a budget of 3 thousand millions of dollars and the participation of an International Public Consortium, which was formed by EEUU, UK, Japan, France, Germany, China and other countries. Its ultimate objective was achieving the complete sequence of the human genome.

It started in 1990, but things get complicated when, in 1999, appeared a private company, Celera Genomics, headed by the scientist Craig J. Venter, who launched the challenge of getting the human sequence in record time, before the expected by the Public Consortium.

At the end it was decided to leave in a draw. The Public Consortium accelerated the process and obtained the draft almost at the same time. On 26th June 2000, in a ceremony at the White House with President Bill Clinton, the two leading representatives of the parties in competition, Craig Venter by Celera and the Public Consortium director, Francis Collins found. It announced the achievement of two drafts of the complete human genome sequence (Video 1). It was a historic moment, as the discovery of the double helix or the first time the man went to the Moon.

Video 1. Human Genome announcement at the White House (Source: YouTube)

The corresponding publications of both sequences did not appear until February 2001. The Public Consortium published its sequence in the journal Nature, while Celera did in Science (Figure 1). Three years later, in 2004, the Consortium published the final or complete version of the human genome.

Figure 1. Covers publications of the human genome sequence draft in Nature and Science magazines in February 2001 (Source: Bioinformática UAB)


The genome of the year 2001 is the reference genome. From here we have entered in the era of personal genomes, with names and surnames. Craig Venter was the first person who sequenced his genome, and the next one was James Watson, one of the discoverers of double helix.

It took 13 years to sequence the reference genome. It took less time to sequence Craig Venter’s genome and only few months for Watson’s genome.


Without going to sequence the entire genome they have been identified disease-causing genes. An exome is not the whole genome, but the part of the genome corresponding to exons.

An example is the case of Nicholas Volker (Figure 2), the first case of genomic medicine. This child had a severe and intractable inflammatory bowel disease of unknown cause. With exome sequencing was allowed to discover a mutation in the XIAP gene on chromosome X, replacing an amino acid functionally important for another. A bone marrow transplant saved the life of the patient.

nicholas volker
Figure 2. Nicholas Volker with his book One in a Billion, which tells his story (Source: Rare & Undiagnosed Network)


La secuenciación del genoma humano

La genómica es una ciencia reciente, la cual ha tenido un importante auge en los últimos años, sobre todo gracias a las tecnologías avanzadas de secuenciación de ADN, a los avances en bioinformática y a las técnicas cada vez más sofisticadas para realizar análisis de genomas completos. Y de los genomas completos y su secuenciación os hablaré en este artículo, mencionando también el proyecto Genoma Humano, que permitió la secuenciación del genoma humano.


La secuenciación es el conjunto de métodos y técnicas bioquímicas cuya finalidad es la determinación del orden de los nucleótidos (A, T, C y G). Su objetivo es obtener todos los nucleótidos ordenados del ADN de un organismo.

Los primeros organismos que se secuenciaron fueron dos bacterias, Haemophilus influenzae y Mycoplasma genitalium en el 1995. Sólo un año después se secuenció el genoma de un hongo (Saccharomyces cerevisiae).

A partir de aquí nace el proyecto de secuenciación de eucariotas: en 1998 se secuencia Caenorhabditis elegans (nematodo), en 2000 Drosophila melanogaster (mosca de la fruta) y en 2001 el genoma humano.

Pero ¿por qué secuenciamos? En el caso del genoma humano, hay la necesidad de conocerlo para que ayude a paliar o evitar enfermedades.

Algunos de los organismos que se han secuenciado son organismos modelos, los cuales tienen:

  • Importancia médica: hay organismos patógenos y conocemos las enfermedades que pueden causar.
  • Importancia económica: los organismos que los humanos consumimos, con técnicas moleculares los podemos mejorar.
  • Estudio de la evolución: en el año 2007 se secuenciaron más de 11 especies de Drosophila y se intentó entender la relación evolutiva de los cromosomas de éstas. También se ha hecho en mamíferos (Proyecto ENCORE).


El genoma humano tiene 46 cromosomas, es decir, 23 parejas de cromosomas (22 parejas de cromosomas autosómicos y 1 pareja de cromosomas sexuales, XX o XY dependiendo de si es mujer u hombre).

El tamaño del genoma humano secuenciado es de 32.000Mb, es decir, los 23 cromosomas más el cromosoma Y.

El genoma humano se obtuvo de la mezcla de genomas humanos para obtener una representación del genoma de toda la humanidad.


Una paradoja es un hecho que parece contrario a la lógica. Con los genomas encontramos dos claras paradojas.

La primera paradoja hace referencia al valor C, el valor que representa la cantidad de ADN en el genoma. Como sería de esperar, cuanto más grande y complejo sea el organismo, más grande será el tamaño de su genoma. Pero esto no es así ya que no existe esta correlación. Esto se debe a que el genoma no solamente contiene genoma codificante y proteínas, sino que también contiene ADN repetitivo. Además, los genomas más compactados se encuentran en organismos menos complejos.

La segunda paradoja hace referencia al valor G, el valor que representa el número de genes. Tampoco encontramos correlación entre el número de genes y la complejidad. Un ejemplo claro es que en el genoma humano hay alrededor de 20.000 genes y Arabidopsis thaliana  (planta herbácea) tiene 25.000 genes. La explicación se encuentra en el mundo del ARN, que es más complejo de lo que se pensaba y tiene que ver con la regulación de los genes.


El proyecto de secuenciación del genoma humano ha sido el mayor proyecto de investigación biomédica de la historia. Con un presupuesto de 3 mil millones de dólares y la participación de un Consorcio Público Internacional, formado por EEUU, Reino Unido, Japón, Francia, Alemania, China y otros países, tenía como objetivo último la consecución de la secuencia completa del genoma humano.

Empezó en 1990, pero la cosa se complicó cuando, en 1999, apareció en escena una empresa privada, Celera Genomics, presidida por el científico Craig J. Venter, que lanzó el reto de conseguir la secuencia humana en un tiempo récord, antes de lo previsto por el Consorcio Público.

Al final se decidió dejarlo en tablas. El Consorcio Público aceleró el proceso y obtuvo el borrador casi al mismo tiempo. El 26 de Junio de 2000, en un acto en la Casa Blanca con el presidente Bill Clinton, se encontraron los dos máximos representantes de las partes en competición, Craig Venter por Celera, y el director del Consorcio Público, Francis Collins. Se anunció de forma conjunta la consecución de dos borradores de la secuencia completa del genoma humano (Video 1, en inglés). Fue un momento histórico, como el descubrimiento de la doble hélice o la primera vez que el hombre pisó la Luna.

Video 1. Acto del anuncio del Genoma Humano en la Casa Blanca (Fuente: YouTube)

Las publicaciones correspondientes de ambas secuencias no aparecieron hasta febrero de 2001. El Consorcio Público publicó su secuencia en la revista Nature, mientras que Celera lo hizo en Science (Figura 1). Tres años después, en 2004, el Consorcio publicó la versión final o completa del genoma humano.

Figura 1. Portadas de las publicaciones de la secuencia borrador del genoma humano en las revistas NatureScience en febrero de 2001 (Fuente: Bioinformática UAB)


El genoma que se obtuvo en 2001 es el genoma de referencia. A partir de aquí se ha entrado en la era de los genomas personales, con nombre y apellidos. Craig Venter fue el primero que secuenció su genoma y el siguiente fue James Watson, uno de los descubridores de la doble hélice.

Se tardó 13 años en secuenciar el genoma de referencia (HGP). Con el de Craig Venter se tardó mucho menos y con el de James Watson apenas unos meses.


Sin llegar a secuenciar el genoma entero se han identificado genes causantes de enfermedades. El exoma no es el genoma entero, sino la parte del genoma que corresponde a los exones.

Un ejemplo es el caso de Nicholas Volker (Figura 2), el primer caso de medicina genómica. Este niño tenía una enfermedad inflamatoria intestinal grave e intratable de causa desconocida. Con la secuenciación del exoma se permitió descubrir una mutación en el gen XIAP del cromosoma X, que sustituye un aminoácido funcionalmente importante por otro. Un trasplante de médula de hueso le salvó la vida al paciente.

nicholas volker
Figura 2. Nicholas Volker con su libro One in a Billion, que cuenta su historia (Fuente: Rare & Undiagnosed Network)


La seqüenciació del genoma humà

La genòmica és una ciència recent que ha tingut un important auge en els últims anys, sobretot gràcies a les tecnologies avançades de seqüenciació d’ADN, als avenços en bioinformàtica i a les tècniques cada cop més sofisticades per a realitzar anàlisis de genomes complets. I dels genomes complets i la seva seqüenciació és del que us parlaré en aquest article, fent esment al Projecte Genoma Humà, que va permetre la seqüenciació del genoma humà.


La seqüenciació és el conjunt de mètodes i tècniques bioquímiques que tenen com a finalitat la determinació de l’ordre dels nucleòtids (A, T, C i G). El seu objectiu és obtenir tots els nucleòtids ordenats de l’ADN d’un organisme.

Els primers organismes que es van seqüenciar van ser dues bactèries, Haemophilus influenzae i Mycoplasma genitalium en el 1995. Només un any després es va seqüenciar el genoma d’un fong (Saccharomyces cerevisiae).

A partir d’aquí neix el projecte de seqüenciació d’eucariotes: el 1998 es seqüencia Caenorhabditis elegans (nematode), el 2000 Drosophila melanogaster (mosca de la fruita) i el 2001 el genoma humà.

Però, per què seqüenciem? En el cas del genoma humà hi ha la necessitat de conèixer-lo per ajudar a pal·liar o evitar malalties.

Alguns dels organismes que s’han seqüenciat són organismes models, els quals tenen:

  • Importància mèdica: hi ha organismes patògens i coneixem les malalties que poden causar.
  • Importància econòmica: els organismes que els humans consumim, amb tècniques moleculars els podem millorar.
  • Estudi de l’evolució: en l’any 2007 es van seqüenciar més d’11 espècies de Drosophila i es va intentar entendre la relació evolutiva dels cromosomes d’aquestes. També s’ha fet en mamífers (Projecte ENCORE).


El genoma humà té 46 cromosomes, és a dir, 23 parelles de cromosomes (22 parelles de cromosomes autosòmics i 1 parella de cromosomes sexuals, XX o XY depenent de si és dona o home).

La mida del genoma humà és de 32.000Mb, és a dir, els 23 cromosomes més el cromosoma Y.

El genoma humà es va obtenir de la barreja de genomes humans per obtenir una representació del genoma de tota la humanitat.


Una paradoxa és un fet que sembla contrari a la lògica. Amb els genomes trobem dues clares paradoxes.

La primera paradoxa fa referència al valor C, el valor que representa la quantitat d’ADN del  genoma. Com seria d’esperar, com més gran i complex sigui l’organisme, més gran serà la mida del seu genoma. Però això no és així ja que no existeix aquesta correlació. Això és degut a que el genoma no solament conté genoma codificant i proteïnes, sinó que també conté ADN repetitiu. A més, els genomes més compactats es troben en organismes menys complexos.

La segona paradoxa fa referència al valor G, el valor que representa el número de gens. Tampoc trobem una correlació entre el número de gens i la complexitat. Un exemple clar és que en el genoma humà hi ha al voltant de 20.000 gens i Arabidopsis thaliana (planta herbàcia) té 25.000 gens. L’explicació es troba en el món de l’ARN, que és més complex del que es pensava i té a veure amb la regulació dels gens.


El projecte de seqüenciació del genoma humà ha sigut el major projecte d’investigació biomèdica de la història. Amb un pressupost de 3 mil milions de dòlars i la participació d’un Consorci Públic Internacional, format per EEUU, Regne Unit, Japó, França, Alemanya, Xina i altres països, tenia com a objectiu la consecució de la seqüencia completa del genoma humà.

Va començar el 1990, però la cosa es va complicar quan, el 1999, va aparèixer en escena una empresa privada, Celera Genomics, presidida pel científic Craig Venter, que va llençar el repte d’aconseguir la seqüència humana en un temps rècord, abans del previst pel Consorci Públic.

Al final es va deixar en empat. El Consorci Públic va accelerar el procés i va obtenir l’esborrany quasi al mateix temps. El 26 de juny del 2000, en un acte a la Casa Blanca amb el president Bill Clinton, es van trobar els dos màxims representants de les parts en competició: Craig Venter per Celera i el director del Consorci Públic, Francis Collins. Es va anunciar de forma conjunta la consecució de dos esborranys de la seqüència completa del genoma humà (Vídeo 1, en anglès). Va ser un moment històric, com el descobriment de la doble hèlix o la primera vegada que l’home va trepitjar la Lluna.

Vídeo 1. Acte de l’anunci del Genoma Humà a la Casa Blanca (Font: YouTube)

Les publicacions corresponents d’ambdues seqüències no van aparèixer fins el febrer del 2001. El Consorci Públic va publicar la seva seqüència a la revista Nature, mentre que Celera ho va fer a Science (Figura 1). Tres anys després, el 2004, el Consorci va publicar la versió final o completa del genoma humà.

Figura 1. Portades de les publicacions de la seqüència esborrany del genoma humà en les revistes NatureScience el febrer de 2001 (Font: Bioinformática UAB)


El genoma que es va obtenir el 2001 és el genoma de referència. A partir d’aquí s’ha entrat a l’era dels genomes personals, amb nom i cognoms. Craig Venter va ser el primer que va seqüenciar el seu genoma i el següent va ser James Watson, un dels descobridors de la doble hèlix.

Es va trigar 13 anys en seqüenciar el genoma de referència (HGP). Amb el de Craig Venter es va trigar molt menys i amb el de Watson només uns mesos.


Sense arribar a seqüenciar el genoma sencer s’han identificat gens causants de malalties. L’exoma no és el genoma sencer, sinó la part del genoma que correspon als exons.

Un exemple és el cas de Nicholas Volker (Figura 2), el primer cas de medicina genòmica. Aquest nen tenia una malaltia inflamatòria intestinal greu i intractable de causa desconeguda. Amb la seqüenciació de l’exoma es va permetre descobrir una mutació en el gen XIAP del cromosoma X, que substitueix un aminoàcid funcionalment important per un altre. Un transplantament de medul·la òssia li va salvar la vida al pacient.

nicholas volker
Figura 2. Nicholas Volker amb el seu llibre One in a Billion, que explica la seva història (Font: Rare & Undiagnosed Network)


