Генетики хотят записать на бактерии петабайты данных
Один грамм бактерий может хранить в себе более 900 терабайтов информации. Тогда как на грамм хорошего компьютерного твёрдого диска приходится только от одного до четырёх гигабайтов. Этим сравнением начинает рассказ о собственном проекте несколько студентов из Гонконга, взявшая золотую медаль на респектабельном конкурсе.
Принцип «биошифрования при помощи рекомбинации» юные люди придумали не без помощи старших товарищей-учёных, но бoльшую часть работы по его претворению в судьбу совершили однако сами.
За собственный проект парни взяли одну из золотых медалей конкурса по генной инженерии iGEM 2010. Его с 2004 года проводит Массачусетский технологический университет (MIT). Участники соревнуются в умении придавать бактериям новые необходимые черты, изменяя их ДНК.
Кто-то из конкурсантов научил микробы заращивать трещины в цементных конструкциях, другие – искать нитраты в земле, третьи при помощи синтетической биологии побороли заразе, вызываемые как грамположительными, так и грамотрицательными бактериями. А студенты из Китайского университета в Гонконге (CUHK) посчитали нужной функцией бактерий Escherichia coli возможность хранения в их геноме данных, нужных человеку.
«Бактерии нельзя взломать. Отказ электрооборудования либо кража данных для простого компьютера – норма. А бактериям хакерские атаки нипочём.
Информация под надёжной защитой», – говорит один из кураторов проекта Аллен Юй. На снимке он держит в руках фотоаппарат (фото Allen Yu).
Студенты внедрили в ДНК микроорганизма маленький текст о собственной заинтересованности в конкурсе: «iGEm is very interesting».
Сначала компьютерная программа преобразовала исходный текст в цифровую последовательность, применяя таблицу ASCII. Так буквы в слове iGEM превратились в цифровой код: 105 71 69 77.
Потом данный код преобразовали в четверичный. Как нетрудно додуматься, переход к данной совокупности счисления разрешает оперировать четырьмя знаками, любой из которых соответствует одному из четырёх оснований цепи ДНК (0 = A, 1 = T, 2 = C, 3 = G). Итого получается, что iGEM делается «1221 0113 0111 0131» либо «TCCTATTGATTTATGT».
А вся фраза «iGEm is very interesting» преобразовывается в последовательность из 96 пар оснований в ДНК.
Рассмотренный пример – маленькое предложение. Китайцы же мечтают о том, дабы «укладывать» в колонии E. coli громадные тексты, аудио- и видеофайлы. Из этого ещё одна ступень: метод сжатия без утрат DEFLATE, что оказывает помощь существенно уменьшить последовательности кодов до начала синтеза нужного куска ДНК.
Метод разрешает не только уместить в том же количестве большее количество информации, но и уменьшить количество гомополимеров (полимеров с однообразными мономерными звеньями) и повторяющихся фрагментов кода.
Лаборатория в Гонконге соответствовала всем правилам безопасности, так что поменянные бактерии не могли сбежать (фото CUHK).
Ясно, что теоретически возможно забрать нужную последовательность оснований любой длины и внедрить её вовнутрь ДНК бактерии. Но таковой подход до тех пор пока тяжело реализуем. При таких условиях логично поделить взятую последовательность на эти куски и фрагменты внедрить в геномы нескольких клеток.
Для этого нужен следующий ход – создание широкой памяти параллельного действия (parallel storage), в которой все элементы (отдельные фрагменты) смогут быть дешёвы в один момент. В ней возможно расположить данные любого размера (так как клеток возможно какое количество угодно).
Неприятность в том, как наряду с этим не взять нелепость, не нарушить порядок частей текста. Для этого студенты предлагают сопроводить любой фрагмент заголовком, содержащим данные о расположении фактически «сообщения», и «контрольной суммой». В следствии мы приобретаем поезд из трёх вагонов: голова, контрольная сумма и сообщение.
В таком виде последовательность возможно вводить в ДНК микроорганизмов.
Заголовок складывается из восьми оснований, любая их пара подсказывает, в каких территории, регионе, области и районе было расположено данное сообщение.
Четыре адресные единицы разрешают выяснить расположение куска информации в начальном коде совершенно верно равно как и на простом твёрдом диске (иллюстрация CUHK).
Контрольная сумма разрешает решить проблему малых мутаций, каковые смогут происходить на протяжении хранения информации в клетке, и оказывает помощь установить верную последовательность фрагментов сообщения при расшифровке (об этом чуть позднее).
Чтобы внедрить вставку в геном бактерии, студенты воспользовались стандартными процедурами. Они извлекли ДНК из клеток, при помощи ферментов перекроили их, по окончании чего вернули геномы на законные места.
Последовательность «вагонов поезда» (иллюстрация CUHK).
Дабы лишить непосвящённых возможности прочесть внедрённый код, китайцы создали процесс биошифрования. Студенты применяли природный механизм сайт-своеобразной рекомбинации (site-specific recombination), осуществляющей перестройку последовательностей в ДНК E. coli.
Для простоты описания отметим только, что вагон-сообщение в каждого поезда кроме этого разделено на части повторами (repeated sequences либо repeats) – они продемонстрированы на рисунке выше. Эти метки разрешают ферменту рекомбиназе поменять куски сообщения местами в любом порядке. А также учёные не знают, в какой последовательности куски в итоге поднимутся.
Процесс рекомбинации генетики включили, запустив экспрессию соответствующего гена. В следствии рекомбиназа перепутала части сообщений, и в ДНК клеток обосновался самый настоящий шифр. (Подробности смотрите в PDF-презентации.)
Расшифровка сохранённых данных производится в три шага. Сперва учёные секвенируют геномы E. coli. Для этого лучше применять высокопроизводительные разработки последнего поколения.
Из взятой информации извлекается массив тех самых «поездов», любой разделяется на «вагоны».Так как программе-клиенту известен ключ для подсчёта «контрольной суммы», она может определять (перебором), в какой последовательности шли фрагменты сообщения изначально, соответственно, способна его прочесть. После этого происходит сборка всех сообщений в единую последовательность при помощи адресов (иллюстрация CUHK).
В следствии всех перечисленных манипуляций Декларация независимости США, которая состоит, по подсчётам студентов, из 8074 знаков, имела возможность бы уместиться всего лишь в 18 клетках E. coli. Учитывая, что в одном грамме бактерий содержится около 10 миллионов микроорганизмов, любой фрагмент имел возможность бы иметь более 500 тысяч копий.
На протяжении нескольких месяцев лабораторных опробований китайцы установили, что их прототип биошифровальной совокупности в полной мере работоспособен. Учёные определили, что утрат кода в геномах не происходило.
Имели место две мутации, но эти «нарушения» возможно будет обойти. При секвенирования нескольких геномов (мы не забываем о нескольких копиях одной и той же информации) неизменённый вариант кода возможно будет выяснить несложным «большинством голосов».
Обрисованным способом юные учёные взяли ту самую, заявленную в начале плотность упаковки информации: один грамм E. coli соответствует 450 двухтерабайтным дискам.
Ещё одно весомое преимущество наработки – долговечность хранения любой информации. Бактерии способны размножаться в течении тысячелетий! Само собой разумеется, для этого им нужно создать хорошие условия существования.
Во-первых, больше клеток выживет, во-вторых, снизится число мутаций, соответственно, будет меньше головной боли при расшифровке.
Компьютерное моделирование в второй работе продемонстрировало, что 99% информации сохранится кроме того при трансформации 15% ДНК микроорганизмов, что случится только спустя тысячелетия.
Кое-какие бактерии, такие как Deinococcus radiodurans, к примеру, выживут и по окончании ядерного удара. Быть может, кто-то из людей сохранит данные в недрах этих микроорганизмов (фото с сайта scifun.ed.ac.uk).
И не следует тревожиться об утилизации биологических твёрдых дисков. Китайцы подчёркивают, что применяли для работы незаразные штаммы кишечной палочки (DH5-α). Намного большей проблемой было не столько выпустить E. coli во окружающую среду, сколько не внести вовнутрь совокупности загрязняющие её компоненты.
Отметим, что в прошлых изучениях в области обработки и хранения информации в живых организмах учёным получалось создать прототип биологической счётной автомобили и цифровую память из вирусов. Экспериментировали разработчики и с DVD, покрывая их поверхность белками.
Вшивать стороннюю данные в ДНК бактерий также пробовали. В 2007 году несколько исследователей из университета Кейо (Keio University) записала в ДНК почвенной бактерии Bacillus subtilis следующую строчок «E=mc2 1905».
А чуть раньше (в 2001 году) несколько доктора наук Картера Банкрофта (Carter Bancroft) из медицинской школы Нью-Йоркского университета пробовала создать метод долговременного хранения данных в ДНК. Но никто из генетиков не тестировал и не доводил начальную идею до создания более универсального продукта.
Студенты же в первый раз доказали, что вероятно массовое использование для того чтобы процесса, придумали, как сжать эти, поделить их на части, безопасно распределить между клетками (что равносильно преодолению лимита на количество хранимых данных).
Кстати, применять такую разработку китайцы предлагают не только в сфере компьютерной памяти, но и для штрихкодов в ДНК разных организмов. Дескать, пометим мы эдакой последовательностью генно-модифицированную пшеницу в Европе, а позже в Соединенных Штатах возможно будет совершенно верно установить, откуда привезли те либо иные семена.
Кстати, так возможно внести не только данные о производителе, но и описание особенностей продукта либо авторские права (фото CUHK).
Но, кроме того нынешние успехи китайцев не разрешают заявить, что до создания биологического компьютера рукой подать. Вряд ли в ближайщее время люди начнут хранить громадные количества информации в коробочке с бактериями на полке холодильника. Так как придумать последовательность действий и проверить действенность принципа на практике – только полдела.
в первых рядах –создание совокупности, которая сможет трудиться вне стен лаборатории на простом столе.