Краткое руководство. Запуск рабочего процесса в службе Microsoft Genomics

Краткое руководство. Запуск рабочего процесса в службе Microsoft Genomics

В этом кратком руководстве вы отправите входные данные в учетную запись службы "Хранилище BLOB-объектов Azure" и запустите рабочий процесс через службу Microsoft Genomics с помощью клиента Python Genomics. Microsoft Genomics — это масштабируемая надежная служба вторичного анализа, которая может быстро обрабатывать геном, начиная с простых операций чтения до выполнения согласованного считывания и вызовов вариантов.

Предварительные требования

  • Учетная запись Azure с активной подпиской. Создайте учетную запись бесплатно. , с установленным и python в системном пути. Клиент Microsoft Genomics не совместим с Python 3.

Настройка. Создание учетной записи Microsoft Genomics на портале Azure

Чтобы создать учетную запись Microsoft Genomics, перейдите на страницу создания учетной записи Genomics на портале Azure. Если у вас нет подписки Azure, создайте ее, прежде чем создавать учетную запись Microsoft Genomics.

Настройте учетную запись Genomics, указав следующую информацию, как показано на предыдущем рисунке.

Параметр Рекомендуемое значение Описание поля Подписка Имя вашей подписки Это единица выставления счетов для служб Azure. Дополнительные сведения см. на странице подписок Группа ресурсов MyResourceGroup Группы ресурсов позволяют группировать несколько ресурсов Azure (учетная запись хранения, учетная запись Genomics и т. д.). в одну группу для простого управления. Дополнительные сведения см. в разделе Группы ресурсов. Допустимые имена групп ресурсов см. в статье Соглашения об именовании. Имя учетной записи MyGenomicsAccount Выберите уникальный идентификатор учетной записи. Допустимые имена см. в статье Соглашения об именовании. Расположение западная часть США 2 Служба доступна в таких регионах: западная часть США 2, Западная Европа и Юго-Восточная Азия.

В строке меню вверху выберите пункт Уведомления, чтобы отслеживать процесс развертывания.

Дополнительные сведения о Microsoft Genomics см. Что такое Microsoft Genomics?

Настройка. Установка клиента Microsoft Genomics Python

Вам нужно установить в своей локальной среде два клиента msgen : Python и Microsoft Genomics Python.

Установка Python

Клиент Microsoft Genomics Python совместим с Python 2.7.12 или более поздней версией 2.7.xx. Предлагаемая версия — 2.7.14 Файл установки можно скачать здесь.

Версия Python 3.x не совместима с версией Python 2.7.xx. msgen — это приложение Python 2.7. При выполнении msgen убедитесь, что вы используете в своей среде Python версию Python 2.7.xx. При попытке использования msgen с версией Python 3.x могут возникнуть ошибки.

Установка клиента Microsoft Genomics Python msgen

Используйте Python pip , чтобы установить клиент Microsoft Genomics msgen . В следующих инструкциях предполагается, что Python2.x уже есть в системном пути. Если не удается распознать установку pip , добавьте Python и вложенную папку скриптов в системный путь.

Если вы не хотите устанавливать msgen как двоичный файл во всей системе и изменять пакеты Python во всей системе, используйте флаг –-user с pip . Если вы выполняете установку с помощью пакетов или файла setup.py, устанавливаются все необходимые пакеты.

Тестирование клиента Python msgen

Чтобы протестировать клиент Microsoft Genomics, скачайте файл конфигурации из своей учетной записи Genomics. Перейдите к учетной записи Genomics на портале Azure, выберите пункт Все службы в левом верхнем углу, а затем найдите и выберите учетную запись Genomics.

Выберите учетную запись Genomics, которую вы только что создали, откройте раздел Ключи доступа и скачайте файл конфигурации.

Протестируйте работу клиента Microsoft Genomics Python с помощью следующей команды:

Создание учетной записи хранения Microsoft Azure

Служба Microsoft Genomics ожидает входные файлы в виде блочных BLOB-объектов в учетной записи хранения Azure. Она также записывает выходные файлы как блочные BLOB-объекты в определенный пользователем контейнер в учетной записи хранения Azure. Входные и выходные файлы могут находиться в разных учетных записях хранения. Если в вашей учетной записи хранения Azure уже есть данные, вам нужно только убедиться, что она находится в том же расположении, что и учетная запись Genomics. Иначе при запуске службы Genomics вы будете платить за исходящий трафик. Если у вас еще нет учетной записи хранения Azure, необходимо создать ее и отправить туда данные. Дополнительные сведения об учетных записях хранения Azure см. здесь. Из этой статьи вы узнаете, что такое учетная запись хранения и для чего она нужна. Чтобы создать учетную запись хранения Azure, перейдите на страницу создания учетной записи на портале Azure.

Настройте учетную запись хранения, указав следующую информацию, как показано на предыдущем рисунке. Используйте стандартные параметры для учетной записи хранения. Укажите только, что она не является учетной записью общего назначения, а предназначена для хранилища BLOB-объектов. В хранилище BLOB-объектов операции скачивания или отправки могут выполняться в 2–5 раз быстрее. Рекомендуется модель развертывания по умолчанию (Azure Resource Manager).

Параметр Рекомендуемое значение Описание поля Подписка Ваша подписка Azure. Дополнительные сведения о подписках см. здесь. Группа ресурсов MyResourceGroup Вы можете выбрать группу ресурсов, к которой относится учетная запись Genomics. Допустимые имена групп ресурсов см. в статье Naming rules and restrictions for Azure resources (Правила и ограничения именования для ресурсов Azure) Имя учетной записи хранения MyStorageAccount Выберите уникальный идентификатор учетной записи. Допустимые имена см. в статье Naming rules and restrictions for Azure resources (Правила и ограничения именования для ресурсов Azure) Расположение западная часть США 2 Используйте то же расположение, что и для учетной записи Genomics, для сокращения расходов на исходящий трафик и уменьшения задержки при передаче данных. Производительность Стандартный По умолчанию используется уровень "Стандартный". Дополнительные сведения об учетных записях хранения уровня "Стандартный" и "Премиум" см. в статье Introduction to Azure Storage (Введение в хранилище Microsoft Azure). Тип учетной записи BlobStorage В хранилище BLOB-объектов операции скачивания или отправки могут выполняться в 2–5 раз быстрее, чем в хранилище общего назначения. Репликация Локально избыточное хранилище Локально избыточное хранилище реплицирует ваши данные в центр данных в регионе, в котором создана учетная запись хранения. Дополнительные сведения см. в статье о репликации службы хранилища Azure. Уровень доступа Горячий Горячий уровень доступа означает, что доступ к объектам в учетной записи хранения будет осуществляться часто.

Щелкните Review + create (Просмотр и создание), чтобы создать учетную запись хранения. Как и во время создания учетной записи Genomics, вы можете выбрать значок Уведомления в строке меню вверху, чтобы отслеживать процесс развертывания.

Передача входных данных в учетную запись хранения

Служба Microsoft Genomics ожидает в качестве входных файлов парные файлы для чтения (файлы fastq или bam). Вы можете отправить собственные данные или использовать общедоступные примеры данных. Если вы хотите использовать общедоступные примеры данных, вы найдете их по ссылкам ниже:

Создайте в своей учетной записи хранения один контейнер больших двоичных объектов для входных данных и еще один — для выходных данных. Передайте входные данные в контейнер больших двоичных объектов. Для этого можно использовать различные инструменты, например Обозреватель службы хранилища Microsoft Azure, BlobPorter или AzCopy.

Запуск рабочего процесса в службе Microsoft Genomics с помощью клиента Python msgen

Для запуска рабочего процесса в службе Microsoft Genomics измените файл config.txt, указав в нем контейнер хранилища входных и выходных данных. Откройте файл config.txt, скачанный из учетной записи Genomics. Разделы, которые необходимо указать: ключ подписки и шесть элементов в конце файла (имя учетной записи хранения, ключ и имя контейнера для входных данных, имя учетной записи хранения, ключ и имя контейнера для выходных данных). Чтобы найти эти сведения, перейдите на портале в раздел Ключи доступа вашей учетной записи хранения или непосредственно в Обозреватель службы хранилища Azure.

Если необходимо запустить GATK4, установите значение gatk4 для параметра process_name .

Служба Genomics записывает файлы VCF по умолчанию. Если вы хотите получить выходные данные Гвкф, а не выходные данные VCF (что эквивалентно -emitRefConfidence в GATK 3. x и emit-ref-confidence в GATK 4. x), добавьте emit_ref_confidence параметр в -emitRefConfidence и задайте для gvcf него значение, как показано на предыдущем рисунке. Чтобы вернуться к выходным данным в формате VCF, удалите его из файла config.txt или задайте для none параметра значение.

bgzip — это средство, которое сжимает файл VCF или GVCF. tabix создает индекс для сжатого файла. По умолчанию служба Genomics выполняет bgzip , а затем — tabix для выходных данных .g.vcf, но не запускает эти средства по умолчанию для выходных данных .vcf. При запуске служба создает файлы GZ (выходные данные bgzip) и TBI (выходные данные tabix). Аргумент является логическим значением, которое по умолчанию имеет значение false для выходных данных VCF и значение true для выходных данных .g.vcf. Для использования в командной строке укажите для -bz или --bgzip-output значение true (запустите bgzip и tabix) или false . Чтобы использовать этот аргумент в файле config.txt , добавьте или bgzip_output: false в файл.

Отправка рабочего процесса в службу Microsoft Genomics с помощью клиента Python msgen

Используйте клиент Microsoft Genomics Python для отправки рабочего процесса с помощью следующей команды:

Чтобы просмотреть состояние рабочего процесса, используйте следующую команду:

После выполнения рабочего процесса вы можете просмотреть выходные файлы в контейнере выходных данных своей учетной записи хранения Azure.

Дальнейшие действия

С помощью инструкций из этой статьи вы научились отправлять примеры входных данных в службу хранилища Azure и отправлять рабочий процесс в службу Microsoft Genomics через клиент Python msgen . Дополнительные сведения о других типах входных файлов, которые можно использовать со службой Microsoft Genomics, см. на следующих страницах: парные FASTQ- BAM несколько FASTQ-или BAM.

📎📎📎📎📎📎📎📎📎📎