РНК-Seq атлас экспрессии генов в нормальных тканях мыши и крысы

Изучение животных Самцов крыс линии Wistar Han (Crl: WI (Han)) и мышей BL / 6J (C57BL / 6J) получали...
мРНК-Seq анализ биоинформатики
Пошаговый конвейер mRNA-Seq
Последующий анализ наборов данных РНК-Seq мыши и крысы

Изучение животных
Самцов крыс линии Wistar Han (Crl: WI (Han)) и мышей BL / 6J (C57BL / 6J) получали от Charles River Laboratories (Германия). Протоколы экспериментов, касающихся использования лабораторных животных, были рассмотрены Федеральным этическим комитетом Германии и одобрены государственными органами Германии. Животных содержали в группах по три человека в 12-часовом цикле свет / темнота и кормили ad libitum стандартной гранулированной диетой для грызунов (диета № 3438, Provimi Kliba, Швейцария) со свободным доступом к воде. Для отбора образцов тканей использовали крыс с массой тела 160–180 г и мышей в возрасте 7–8 недель. Затем животных ( n = 3 для каждого вида) умерщвляли путем внутрибрюшинной инъекции пентобарбитала (крысы) или вывиха шейки матки (мыши) и тканей (пищевода, желудка, двенадцатиперстной кишки, тощей кишки, подвздошной кишки, толстой кишки, поджелудочной железы, печени, тимуса, почек, сердца). мозг, четырехглавую мышцу) собирали и немедленно переносили в РНК. Позднее при 4 ° С.

Экстракция РНК, подготовка и секвенирование библиотеки иллюминатов

Тотальные РНК были индивидуально извлечены с использованием набора для выделения тотальной РНК Ambion Magmax ™ -96 (Life Sciences) в соответствии с инструкциями производителя. Вкратце, 5 мг ткани помещали в раствор для лизиса и гомогенизировали в Qiagen Tissuelyzer ™ в течение 30 с. Нуклеиновые кислоты были уловлены на магнитных шариках, промыты и обработаны ДНКазой. Тотальную РНК затем элюировали в 50 мкл буфера для элюции. Качество и концентрацию РНК измеряли с использованием чипа RNA Pico на Agilent Bioanalyzer.

Подготовка библиотеки секвенирования была проведена с использованием 200 нг общего количества вводимой РНК с использованием набора для подготовки образца TrueSeq v2-Set B (RS-122–2002, Illumina Inc, Сан-Диего, Калифорния) с получением фрагмента длиной 275 п.н., включая адаптеры среднего размера. , На последнем этапе перед секвенированием восемь отдельных библиотек были нормализованы и объединены вместе с использованием индексов адаптера, предоставленных производителем. Затем объединенные библиотеки были кластеризованы на приборе cBot от Illumina с использованием набора кластеров TruSeq SR v3 — cBot — HS (GD-401–3001, Illumina Inc, Сан-Диего, Калифорния), после чего выполнялась последовательность из 50 п.н., одиночное чтение и 7 считывание индексов оснований на приборе Illumina HiSeq2000 с использованием комплекта TruSeq SBS HS-v3 (50-тактный) (FC-401–3002, Illumina Inc, Сан-Диего, Калифорния).

мРНК-Seq анализ биоинформатики

Конвейер обработки подробно описан ниже. Один образец не может быть обработан из-за технических проблем (mouse_11_heart). Для всех оставшихся образцов считывания RNA-Seq из образцов крысы и мыши были сопоставлены с геномами крысы и мыши соответственно с использованием STAR Aligner v2.5.2a. 11 с соответствующими им ансамблями 84 эталонных генома ( http://www.ensembl.org ). Качество последовательного чтения было проверено с помощью FastQC v0.11.2 ( http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ ) и метрики качества выравнивания были рассчитаны с использованием RNASeQC v1.18 12 , После выравнивания показаний скорости дублирования образцов RNA-Seq были рассчитаны с помощью bamUtil v1.0.11 для отметки дублированных чтений и пакета dupRadar v1.4 Bioconductor R для оценки. 13 , Профили экспрессии генов определяли количественно с использованием программного обеспечения Cufflinks версии 2.2.1. 14 чтобы получить количество операций чтения на килобазу транскрипта на миллион сопоставленных операций чтения (RPKM), а также количество операций чтения из пакета программного обеспечения для подсчета функций 15 , Матрица отсчетов чтения и файл проекта были импортированы в R, коэффициенты нормализации рассчитаны с использованием усеченного среднего значения М (TMM), а затем нормализованы по номеру, перед тем как они были подвергнуты описательному анализу статистики.

Пошаговый конвейер mRNA-Seq

Перед выполнением шагов выполнения, упомянутых выше, необходимо подготовить индексы выравнивания целевого организма для выравнивателя STAR. Для мыши это делается следующим образом:

STAR --runMode genomeGenerate \

--genomeDir mouse84.STARIndex / \

--genomeFastaFiles Mus_musculus.GRCm38.dna.primary_assembly.fa \

--sjdbGTFfile Mus_musculus.GRCm38.84.gtf \

--sjdbOverhang 49 \

--runThreadN 16

Для крысы это должно быть принято соответственно. После того, как индекс генома подготовлен, все образцы от каждого вида обрабатываются индивидуально. Во всех последующих командах <sample_id> соответствует названию образца (например, 199_1 для первого образца мыши из поджелудочной железы).

Создайте пример выходного каталога, в котором будут храниться все выходные данные каждого шага:

mkdir <sample_id>

Проверьте качество последовательного чтения с FastQC v0.11.2:

fastqc --outdir = <sample_id> / <sample_id> &> <sample_id> / <sample_id> .fastqc.log

Выровняйте чтения, используя STAR aligner v2.5.2a:

STAR --genomeDir mouse84.STARIndex / \

--readFilesIn <sample_id> .fastq.gz \

--outFileNamePrefix <sample_id> / <sample_id> .fastq.gz. \

--runThreadN 8 \

--limitBAMsortRAM 60000000000 \

--outSAMattrRGline ID: <sample_id> .fastq.gz SM: <sample_id> .fastq.gz \

--outBAMsortingThreadN 8 \

--outSAMtype BAM SortedByCoordinate \

--outSAMunmapped Внутри \

--outSAMstrandField intronMotif \

--readFilesCommand zcat \

--chimSegmentMin 20 \

--genomeLoad NoSharedMemory

Создайте индекс файла BAM (* .bai), используя samtools v0.1.18:

samtools index <sample_id> / <sample_id> .fastq.gz.Aligned.sortedByCoord.out.bam

Отметьте дубликаты, используя шаг дедупликации BamUtils v1.0.11:

bam dedup --in <sample_id> / <sample_id> .fastq.gz.Aligned.sortedByCoord.out.bam \

--log <sample_id> / <sample_id> .fastq.gz.Aligned.out.dupmark.log \

--out <sample_id> / <sample_id> .fastq.gz.Aligned.out.dupmark.bam \

--noPhoneHome

samtools index <sample_id> / <sample_id> .fastq.gz.Aligned.out.dupmark.bam

Запустите DupRadar v1.4 на дублированном помеченном bam:

mkdir <sample_id> / dupradar

dupRadar.sh --bam = <sample_id> / <sample_id> .fastq.gz.Aligned.out.dupmark.bam \

--gtf = Mus_musculus.GRCm38.84.gtf \

- stranded = нет \

--paired = нет \

--outdir = <sample_id> / dupradar \

--threads = 16

Количественное определение гена / транскрипта с помощью Cufflinks v.2.2.1 для получения RPKM:

запонки -u -p 8 -o <образец_ид> / запонки \

--max-bundle-frags 1000000000 \

--ноэффективная коррекция длины \

--compatible-hit-norm \

-G Mus_musculus.GRCm38.84.gtf \

<Sample_id> / <sample_id> .fastq.gz.out.dupmark.bam

Запустите featureCounts для генерации счетчиков чтения:

featureCounts -a Mus_musculus.GRCm38.84.gtf \

-o <sample_id> / <sample_id> .fastq.gz.featureCounts.ensembl.txt \

-T 3 <sample_id> / <sample_id> .fastq.gz.Aligned.out.markdup.bam

Контроль качества РНК:

java -Xmx20g -jar RNA-SeQC_v1.1.8.jar \

-t Mus_musculus.GRCm38.84.gtf \

-r Mus_musculus.GRCm38.dna.primary_assembly.fa \

-o <sample_id> / rnaqc -singleEnd -ttype 2 \

-s '<sample_id> | <sample_id> .fastq.gz.Aligned.out.dupmark.bam | Notes'

Все выходные данные для каждого образца в конечном итоге объединяются в табличные выходные файлы счетчиков чтения (<разновидности> _counts.txt), RPKM (<виды> _rpkm.txt) и технического контроля качества (<виды> _rnaqc.txt). Графика в Дополнительный S1 обобщить результаты контроля качества РНК для всех образцов мышей и крыс.

Последующий анализ наборов данных РНК-Seq мыши и крысы

После предварительной обработки необработанных данных мыши и крысы последующий последующий анализ был применен к объединенным таблицам данных с использованием R-кода, предоставленного в Дополнительный S2 , Вкратце, оба набора данных были импортированы в общую рабочую среду, и было проведено несколько описательных анализов. Анализ основных компонентов ( Рис 1 а также 2 ) и иерархическая кластеризация ( Рис. 3 ) были сделаны на лимме 16 журнал, преобразованный в voom (число на миллион). Внутри- и межтканевые вариации оценивали на основании значений экспрессии RPKM ( Рис. 4 ). Для анализа ортологии ( Рис. 4 ) оба набора данных были ограничены генами, кодирующими белки, которые имеют гомологическое отношение «один к одному» с генами человека, а также между мышью и крысой и наоборот. Информация о гомологии и аннотации биотипа генов были получены из Ensembl Version 84.

Рисунок 1: Объясненная дисперсия по основным компонентам.

Линейные графики показывают процент объясненной дисперсии для первых десяти основных компонентов для образцов мыши ( а ) и крысы ( b ).

Рисунок 2: Анализ основных компонентов (PCA).

Точечный график размеров 24 ПК1 против ПК2 и ПК1 против ПК3 (мышь: a , c ; крыса: b , d ). Образцы окрашены тканью, а числа в скобках соответствуют пропорции дисперсии, объясняемой соответствующим основным компонентом.

Рисунок 3: Иерархическая кластеризация.

Иерархическая кластеризация образцов мыши ( а ) и крысы ( б ). Дендрограммы, визуализирующие результат иерархической кластеризации на основе преобразованного по логу журнала (количество на миллион). Евклидово расстояние между образцами и метод полного сцепления были использованы для кластеризации.

Рисунок 4: Изменчивость экспрессии в тканях.

Квадратный коэффициент вариации для генов мышей ( a ) и крыс ( b ) в сравнении с их log10 (mean_RPKM), окрашенными тканью, для визуализации внутри- и межканальных изменений 17 , Используемая функция сглаживания - gam (обобщенные аддитивные модели с интегрированной оценкой гладкости), поэтому показаны стандартные ошибки, основанные на апостериорном распределении коэффициентов модели.

Рекрутинговая компания Consulting: Поиск и подбор персонала

РНК-Seq атлас экспрессии генов в нормальных тканях мыши и крысы

Экстракция РНК, подготовка и секвенирование библиотеки иллюминатов

мРНК-Seq анализ биоинформатики

Пошаговый конвейер mRNA-Seq

Последующий анализ наборов данных РНК-Seq мыши и крысы

Похожие