Биоинформатика

1. Поиск генов пути синтеза капсаицина

Целью нашего исследования было научить томаты синтезировать капсаицин. Мы решили при помощи агробактерий внедрить в растение плазмиду, содержащую гены синтеза капсаицина. В первой стадии нашего исследования мы выделяли капсаицин из различных сортов перца, после чего, по тесту Сковилла определяли остроту полученного нами раствора. Самым острым оказался раствор кайенского стручкового перца: 30000-50000 SHU. Затем, мы нашли гены, которые отвечают за синтез капсаицина, и не экспрессируются у томата, этими генами оказались: CSY1, KAS и BCAT. После чего, в программе Genome Compiler, мы сконструировали плазмиды,вставляя гены так, чтобы создавались так называемые "липкие концы". Таким образом, на выходе мы получили: шкалу остроты различных перцев, гены синтеза капсаицина, 3 модели плазмид, которые можно встраивать в томаты для получения в них капсаицина.


2. Поиск ортологов генов пути синтеза капсаицина у томата

Для поиска гомологов мы использовали программу nHMMER. Брали только последовательности, у которых значение e-value ниже порогового. При помощи программы ORFfinder производился поиск открытых рамок считывания (ORFs — open reading frames) в обнаруженных нуклеотидных последовательностях. Из вывода программы выбирался наиболее длинный из предсказанных белковых продуктов. Затем полученная аминокислотная последовательность выравнивалась про помощи алгоритма blastp на протеом томата для подтверждения наличия гомологичного белка. Согласно статье (Naves et al., 2019), часть генов (KAS, PAL, COMT, FaTA) экспрессируются томатом, однако очень малоактивна. Другие два гена, BCAT и CSY1 не экспрессируются вообще.

Согласно нашим данным, полученным в ходе поиска ортологов:

  1. ACL — ортолог обнаруживается у томата

  2. ASC1 — такой белок аннотирован у томата, его можно обнаружить по аминокислотной последовательности, полученной в ORF-finder при помощи blastp и tblastn

  3. BCAT — последовательность обнаруживается в транскриптоме томата, как PREDICTED, однако при выравнивании нуклеотидной и аминокислотной последовательности на этот ген у перца обнаруживается значительное несоответствие, что может являться причиной неактивности данного гена у томата.

  4. C3H — последовательность обнаруживается, как PREDICTED, однако при выравнивании нуклеотидной и аминокислотной последовательности на этот ген у перца обнаруживается значительное несоответствие, что может являться причиной неактивности данного гена у томата. Имеет высокий уровень гомологии с последовательностью XM_004249068.3 (cytochrome P450 98A2-like (LOC101262367))

  5. C4H — обнаруживается у томата с высоким уровнем гомологии.

  6. Для анализа были взяты последовательности генов, участвующих в пути синтеза капсаицина перца:

  7. 4CL, ACL, ASC1, BCAT, C4H, CCoAOMT, CH3, COMT, CSY1, FAT, HCHL, HCT, KAS, PAL, pAMT (Gonzalez et al., 2010; Rodriguez et al., 2019; Zhang et al., 2016; Naves et al., 2019). Последовательности искали в базе Nucleotides NCBI при помощи текстовых запросов.

3. Результаты выравнивания

Выравнивание метод, при котором несколько последовательностей нуклеотидов ДНК или РНК размещены друг под другом таким образом, чтобы легко увидеть сходные участки в этих последовательностях. Выравнивание нужно для поиска, в частности, гомологов генов на основе схожести их последовательностей. Результаты выравнивания найденных последовательностей смотрите тут.

По результатам выравнивания были отобраны гены для встраивания в плазмиды, перспективные с точки зрения получения нужных свойств у томата. Спроектированные плазмиды лежат тут.


4. Работа с fasta

В этой небольшой статье рассказано о порядке записи информации в формат FASTA для того, чтобы они могли быть обработаны специализированными программами, в том числе программами выравнивания.

  1. Последовательности в формате FASTA начинаются с однострочного описания, за которым следуют строки, содержащие собственно последовательность. Описание отмечается символом «больше» («>») в первой колонке. Слово за этим символом и до первого пробела является идентификатором последовательности, далее следует опциональное описание. Следующие несколько строк могут иметь первым символом точку с запятой («;»), и тогда они будут восприниматься как комментарии, но сейчас они не используются и их лучше не печатать, так как это может привести к некорректному чтению программой файла. Дальше следуют строки, содержащие собственно биологические последовательности. Обычно строки в формате FASTA ограничены длиной от 80 до 120 символов.

  2. Заголовок последовательности должен начинаться со знака ">", имеет пробелы.

  3. Последовательности записываются в виде однобуквенных кодов нуклеотидов или аминокислот, совпадающих с их стандартными однобуквенными обозначениями, принятыми международным союзом теоретической и прикладной химии, в порядке от 5'- к 3'-концу для нуклеиновых кислот и от N- к С-концу для аминокислот, в них допускаются пробелы, символы могут быть как в верхнем, так и в нижнем регистре. Числа, служебные символы конца строки и табуляции игнорируются программами работы с последовательностями.

  4. Расширения формата fasta: fasta, fna, ffn, faa, frn, afa (mfa)

  5. Обозначения нуклеиновых кислот:

    1. A-AденинA-Aденрегистреин

    2. C-Цитозин

    3. G-Гуанин

    4. T-Тимин

    5. U-Урацил

    6. R-Пурины

    7. Y-Пиримидины

    8. K- Кетоновые основания

    9. S-Сильное взаимодействие в комплементарной паре (три водородные связи)

    10. W-Слабое взаимодействие в комплементарной паре (две водородные связи)

    11. N-Любой нуклеотид

    12. Для аминокислот есть 22 обычных кода, 4 специальных и "*" для обозначения стоп-кодона:

      1. A-Аланин

      2. B-Аспарагиновая кислота (D) или Аспарагин (N)

      3. C-Цистеин

      4. D-Аспарагиновая кислота

      5. E-Глутаминовая кислота

      6. F-Фенилаланин

      7. G-Глицин

      8. H-Гистидин

      9. I-Изолейцин

      10. J-Лейцин (L) или Изолейцин (I)

      11. K-Лизин

      12. L-Лейцин

      13. M-Метионин

      14. N-Аспарагин

      15. O-Пирролизин

      16. P-Пролин

      17. Q-Глутамин

      18. R-Аргинин

      19. S-Серин

      20. T-Треонин

      21. U-Селеноцистеин

      22. V-Валин

      23. W-Триптофан

      24. Y-Тирозин

      25. Z-Глутаминовая кислота (E) или Глутамин (Q)

      26. X-Любая аминокислота

"*"-Терминация трансляции