行业动态

转录组丨RNA-seq分析snakemake流程

2023-06-13
生信探索 生信分析笔记 2023-06-12 16:19 发表于陕西A SnakeMake workflow for Bulk RNA-seqReads were mapped onto ensembl genome with STAR, and adapters were removed with fastp.For nomalisztion, gtftools was used to c...

R语言多线程使用方法,充分利用计算资源实现高效计算,缩短等待时间

2023-06-06
原创 Bioinformatics: 生信分析笔记 2023-06-05 22:31 发表于陕西R语言多线程加速通常情况下,R语言只能使用一个线程来进行计算,因此计算的速度及其感人!最近刚好有一个需求:我有一个参考数据表,里面存放了30万条基因的名称和位置信息,现在我想从里面找到指定的6000个基因的位置信息。最简单的方法是用两层for循环进行迭代,一分钟写出以下代码:for (i in 1...

Linux版百度网盘丨直接在服务器SSH命令行中使用百度云,轻松解决数据传输和分享难题

2023-06-02
原创 Bioinformatics: 生信分析笔记 2023-06-02 08:02 发表于陕西Linux版 百度网盘本文主要目的是在Linux环境下通过命令行来使用百度云盘!直接在服务器上将数据(比如基因组等大文件)传输到百度网盘,之后可以进行轻松分享,而且还可以支持备份,解决文件的传输和分享难题。软件简介bypy是一个Python客户端,用于操作百度网盘,提供了丰富的命令行操作。该工具能...

0.3-0.7+0.4等于多少?浮点数间慎用比较

2023-05-30
原创 Bioinformatics: 生信分析笔记 2023-05-29 11:52 发表于陕西浮点数间慎用比较在R语言中,输入一个简单的计算题:0.3-0.7+0.4,得到的结果是5.551115e-17,而随机叫一个小学二年级的同学来口算,这个题答案等于0,但是R语言不这么认为!> 0.3-0.7+0.4[1] 5.551115e-17> 0.3-0.7+0.4 == 0[1] FALS...

Docker学习笔记丨可以快速移植重复使用的生信软件安装解决方案,助力解决软件安装难题

2023-05-29
原创 Bioinformatics: 生信分析笔记 2023-05-28 20:26 发表于陕西生信入门Docker学习笔记Docker是一种轻量级的容器化技术,它可以让开发者将应用程序及其依赖打包成一个可移植的容器,从而实现快速部署、可重复性和高度可移植性,Docker的核心技术是容器化,它通过将应用程序和其依赖打包到一个容器中,来实现应用程序的运行。今天分享的学习笔记是docker入门操...

生物学经典Blast序列比对算法原理,如何在R语言和Python中实现序列的比对分析?

2023-05-25
原创 Bioinformatics: 生信分析笔记 2023-05-24 12:27 发表于北京Blast比对算法原理与实现方式做生物的同学肯定听说过blast比对这个方法,一般在NCBI等网站上可以在线进行比对,也可以在本地服务器进行比对,那么blast算法究竟是怎么实现对不同序列的比对呢?本文分享经典blast算法的基础原理,以及通过R语言和Python实现这个算法,不依赖网站自己进行序...

科研绘图丨使用R语言Pheatmap包快速绘制基因表达量热图的方法,支持聚类和配色自定义修改

2023-05-24
原创 Bioinformatics: 生信分析笔记 2023-05-22 10:55 发表于北京Pheatmap绘制基因表达量热图论文中展示基因表达量变化通常使用热图,今天分享一个快速绘制不同基因在各处理下表达量变化的方法,使用R语言中pheatmap包,它可以用于可视化数据集中的数值,以便更好地理解数据之间的关系和模式。创建环境与示例数据加载R包library(tibble)library...

Linux服务器丨重测序数据分析软件安装指南

2023-05-23
原创 Bioinformatics: 生信分析笔记 2023-05-21 16:25 发表于陕西重测序分析软件安装指南重测序(resequencing)是指对已知基因组进行高通量测序,以检测个体或种群的遗传变异,从而研究基因组的结构和功能。与全基因组测序不同,重测序通常只对部分基因组进行测序,例如外显子、基因区域、SNP等。今天分享如何在服务器上部署安装重测序数据分析环境, Linux 服务...

ChatGPT × R语言 丨实际数据分析过程中,AI能够带来哪些改变?数据框操作案例分享

2023-05-23
原创 Bioinformatics: 生信分析笔记 2023-05-19 14:18 发表于北京ChatGPT × R -> YES!对于非科班出身的生信小白来说,R语言学习中普遍存在的问题是不知道怎么将自己想的内容转变为程序化的语言,举个例子:假如你想把数据表的第一列变成行名,在Excel中只需要鼠标选中复制粘贴即可,但是R语言中要通过代码实现。如果你和我一样,也使用ChatGPT来作为R...

miRNA 从头预测 | miRDeep2基于pre-miRNA二级结构的预测

2023-05-19
原创 酋长的海布里 生信艺术家 2021-07-09 21:18成熟的miRNA序列大约为22nt,短短的22nt是不存在什么二级结构的,根本无法预测。想要根据二级结构预测新的miRNA就得先找到具有发夹结构的miRNA前体。什么是pri-miRNA,pre-miRNA,mature miRNA?pri-miRNA > pre-miRNA > miRNA 加工示意图pri-miRNA:长度从...

碱基偏好分析 | Fasta序列处理常用操作汇总

2023-05-18
原创 酋长的海布里 生信艺术家 2021-07-17 10:10一、碱基偏好可视化 我们有时候需要调查序列5'端的碱基偏好,或者序列第几位的碱基偏好。这时可以通过R中的ggseqlogo包完成对序列碱基偏好的可视化。操作起来非常方便,首先是输入序列的准备,要求输入的序列只为fasta文件的序列行,要把>序列名这行删掉,且保持输入序列长度一致。# 安装所需的包install.pac...

R语言如何快速安装R包?常见方法与报错解决方案汇总,适用于Windows、Mac、Linux多平台

2023-05-17
原创 Bioinformatics: 生信分析笔记 2023-05-10 10:43 发表于陕西R语言如何快速安装R包?如果把R比作是沃土的话,那么R包就是鲜花,开源共享的开发者社区提供了很多功能丰富的R包,方便使用者充分利用R语言完成工作。但是,有时候在安装R包是会遇到各种各样的报错和问题,下面进行一个总结,包括mac、windows、Linux各平台的R包管理方法,建议收藏备用。R包介绍...

算法丨根据基因型VCF文件自动识别变异位点并生成序列fasta文件,基于R语言tidyverse

2023-05-09
根据VCF文件生成序列fasta文件首先提出一个问题:假如有一个基因型VCF文件,里面包含了很多个样本在多个突变位点(snp和iad)的基因型数据,现在想根据这份原始数据,得到一个fasta序列文件,包含每个样品在这些位点的各自对应的序列信息,应该怎么做?解决思路与方法简介方法一:Excel手工处理将vcf文件转成Excel表格判断每个变异位点的类型是snp或者iad如果是iad,将REF和...

利用R语言脚本实现批量合并Excel表格,再也不用手动点来点去了!

2023-05-06
原创 Bioinformatics: 生信分析笔记 2023-04-30 22:40 发表于北京利用R语言批量合并Excel在整理数据的时候遇到一个问题:假如有很多个excel表,分别存放了一部分数据,现在想要快速把这些表格的数据汇总到一起,如何用R语言快速完成呢?本文分享一个脚本,能够自动完成类似的工作。输入文件与背景介绍假如每个材料(样本)的ID编号是从N001开始依次递增,现在有很多e...

利用snpEff对基因型vcf文件进行变异注释,软件安装、数据库配置、结果解读详细方法

2023-05-04
原创 Bioinformatics: 生信分析笔记 2023-04-29 15:52 发表于北京群体遗传研究中,在获得SNP位点后,我们需要对SNP位点进行注释,对这些SNP位点进行更深的了解,比如哪些是启动子区突变、移码突变等,以便下一步寻找关键变异。snpEff是一个用于对基因组单核苷酸多态性(SNP)进行注释的软件,snpEff软件可以用于对VCF文件进行变异注释,使用时需要先进行安装...

ggplot2 在柱状图添加数据标签

2023-04-27
生信小札记 2023-03-16 12:26 发表于福建## 放在柱子上面library(ggplot2)set.seed(10)df <- data.frame(x = rep(c("A", "B", "C")),value = round(runif(3, 0, 100), 0))ggplot(df, aes(x = x, y = value)) + geom_col(fill = '...

SGAT丨快捷GWAS结果显著SNP位点归类提取与变异类型转化算法,基于R语言tidyverse

2023-04-26
原创 Bioinformatics: 生信分析笔记 2023-04-24 21:38 发表于北京GWAS结果归类提取与变异注释根据GWAS得到的Rresult文件信息,能够找出每个snp位点对应的显著性情况和基因变异信息,接下来,需要根据表格中的信息进行归纳总结,对不同显著性层次进行区分,找出可能性最大的点,过程比较繁琐。这里笔者分享一个算法,使统计SNP和变异类型变的更加简便快捷,主要基于...

SGAT丨GWAS得到的结果怎么处理?一种基于tidyverse的数据整理实用小算法

2023-04-25
原创 Bioinformatics: 生信分析笔记 2023-04-21 14:32 发表于陕西GWAS结果文件分析与处理方法引言在使用GAPIT进行GWAS分析后,会自动在工作目录下生成若干结果文件,其中相对比较重要的是result.csv文件,该文件中展示了得到的显著位点详细信息,比如染色体、物理位置、p值等,接下来介绍一种算法,对其进行整理计算为绘图所需格式。主要步骤与思路读取数据文件...

SGAT丨利用GAPIT进行GWAS分析的方法

2023-04-24
原创 Bioinformatics: 生信分析笔记 2023-04-19 15:45 发表于陕西利用GAPIT进行GWAS分析的方法引言GAPIT是张志武老师开发的基于R语言的GWAS分析工具,能够根据表型和基因型数据自动进行不同模型的全基因组关联分析,网上有很多公开的教程。本文分享一种方法,进行单基因GWAS分析。主要步骤加载分析环境导入数据选择模型并开始分析结果提取项目运行环境cento...

SGAT丨hapmap 格式hmp.txt文件转换,基因型和表型文件样品关联筛选提取的快速方法

2023-04-21
原创 Bioinformatics: 生信分析笔记 2023-04-18 09:00 发表于德国hmp文件转化与表型匹配筛选引言分析过程中,如果已经得到了hmp文件,下一步是将表型数据与hmp中的基因型数据一一对应,保证两者的样品ID信息一致,还需要对数据的格式进行规范化处理,用于后续的GWAS分析。本文提供一种算法,能够实现对hmp文件和表型数据的关联筛选与校正。主要步骤与设计思路读取hm...

SGAT丨基于R语言tidyverse的vcf转txt文件算法,SNP位点判断与自动校正,染色体格式替换

2023-04-20
原创 Bioinformatics: 生信分析笔记 2023-04-17 11:11 发表于北京算法:vcf转txt并自动规范化引言vcf文件是存放基因变异信息的一种方式,本文提供一种算法,用于读取vcf文件并转换等位基因展示方法、替换染色体展示格式、以及自动识别非唯一变异并进行修改,用于对变异信息进行整理。主要步骤与设计思路读取VCF文件并分为三部分储存提取变异信息并批量替换修改染色体格式...

SGAT丨Single Gene Analysis Tool

2023-04-19
原创 Bioinformatics: 生信分析笔记 2023-04-16 11:11 发表于陕西Single Gene Analysis Tool简介:SGAT是一个免费开源的单基因分析工具,基于Linux系统实现自动化批量处理,能够快速准确的完成单基因和表型的关联分析,只需要输入基因型和表型原始数据,即可计算出显著关联的SNP位点,并自动生成结果报告。安装与部署运行环境官网渠道(推荐)cu...

一种基于R语言tidyverse的算法:批量查找SNP位点连锁区内对应的QTL以及基因

2023-04-18
原创 Bioinformatics: 生信分析笔记 2023-04-15 14:23 发表于北京批量查找QTL以及基因如果已知SNP位点的物理位置和其LDblock区间的端点,想要快速找到该区间内的QTL,之后根据参考基因组找到与连锁区域存在交集的基因,最终得到与SNP和QTL相匹配的基因集。通常的做法是在Excel中先对每个SNP计算出相应区间,然后找到对应的QTL,然后打开全部基因的参考...

超实用!用docker在服务端部署shiny应用

2023-04-17
原创 农心生信工作室 农心生信工作室 2023-02-23 10:36 发表于北京点击名片 关注我们”农心生信工作室用生信力量服务中国农业!!!73篇原创内容公众号RNAdiff APP是通过docker部署到云服务器上的。那么,什么是docker?先让chatgpt给我们简单介绍一下docker:而docker主页上这样描述docker特性的:开发简单且可以随处运行,用docker配好的环...

服务器丨Linux安装测试单细胞分析软件copykat,遇到的常见报错与解决思路与方法

2023-04-14
原创 Bioinformatics: 生信分析笔记 2023-04-12 09:00 发表于北京Linux安装与使用copykat的方法今天分享的内容是copykat在云服务器Linux端的部署的方法,主要包括安装和测试两大部分,最终的效果是调用服务器进行计算。测试环境Linux centos 7R 4.2.3minconda3天意云 24C 192GB主要的思路是先在linux下创建一个新...

Linux丨一个文件批量重命名的巧妙方法

2023-04-03
生信分析笔记 2023-03-30 15:22 发表于德国以下文章来源于育种与生信小记 ,作者育种与生信小记育种与生信小记.搞育种的生信菜鸟的云笔记点击上方蓝字关注我们1前言大家在做生信的过程中,避免不了跟测序文件打交道,也就是fastq格式的文件,进而衍生出一个需求,也就是需要将fastq文件上传到NCBI,这样文章才能发表,当然有的期刊不需要NCBI号,但是有的时候文件名可能不统一,但是...

转录组差异分析方法越多越好吗

2023-03-31
原创 生信技能树 生信技能树 2023-03-30 11:09 发表于广东交流群有小伙伴问为什么推荐 DESeq2 做转录组测序的表达量矩阵差异分析,那么多其它软件可以选择啊,以及是不是可以多用几个软件然后取交集保证结果的一致性。其实一般来说呢,多种转录组差异分析方法可以提供更全面和准确的结果,但是过多的方法也可能导致方法间的冲突和结果的混乱。让我想起来了好久以前看到的一个综述:Costa-...

Docker 一键式部署方案丨 Linux服务器中安装配置指定版本R以及Rstudio server

2023-03-30
原创 Bioinformatics: 生信分析笔记 2023-03-28 20:21 发表于陕西Docker部署Rstudio server背景:如果您想在服务器上运行RstudioServer,可以按照如下方法进行操作,笔者测试时使用天意云服务器(系统centos7),需要在管理员权限下运行Rstudio 官方提供了使用不同 R 版本的 Rstudio 镜像,使用 docker 来运行它们...

GWAS全基因组关联分析工具GAPIT最新版!详细安装教程与报错解决方案笔记(Linux版)

2023-03-29
原创 Bioinformatics: 生信分析笔记 2023-03-08 21:31 发表于北京GAPIT最新版安装与报错解决本篇笔记主要内容是GWAS分析软件GAPIT最新版的安装和使用教程,包括常见的报错以及解决方案,主要出错位置在LDheatmap、stringi、nloptr、lme4等,测试安装的环境是东方天意的ECS云服务器(Linux centos7),R版本为4.2.2,虚拟...

R语言 ggraph 绘制网络图

2023-03-28
原创 吴十三 生信小札记 2023-03-17 13:18 发表于湖北ggraph 是 ggplot2 的扩展,可用于绘制关系型数据结构,如网络、图和树等。## 核心概念1. layout:定义点的布局,即将节点映射在图片中。2. nodes:节点是网络图形的灵魂,它在整个图里面应该拥有一个唯一的代号,一般使用 geom_node_*() 函数来控制3. edges:边是节点之间的连接,一般...

文献丨转录组分析流程和常用软件

2023-03-24
原创 Cell 生信分析笔记 2022-11-07 23:55 发表于陕西今天继续分享" eQTLs play critical roles in regulating gene expression and identifying key regulators in rice "这篇文献,这里是最后的讨论和试验方法部分学习笔记。讨论部分这篇文章通过287份材料的转录组数据,鉴定出高质量的外...

文献丨转录组RNA seq——青年阶段!

2023-03-23
原创 Nature 生信分析笔记 2022-09-15 20:11 发表于北京RNA测序(RNA-seq)已经成为分析基因差异表达和mRNAs差异剪接不可或缺的工具。随着下一代测序技术的发展,RNA-seq也在发展。目前,RNA-seq方法可用于研究RNA生物学的许多不同方面,包括单细胞基因表达、翻译和RNA结构。随着直接RNA-seq技术和更好的数据分析工具的出现,RNA-seq的发展有助...

TBtools | 基因家族分析 (进化树、Motifs、结构域)

2023-03-22
原创 酋长的海布里 生信艺术家 2023-01-04 15:12 发表于陕西再次体验一下TBtools的强大。使用TBtools对基因家族进行分析,进化树、Motifs 、结构域和基因结构多图合一。一、数据准备1.基因组组装结果fasta格式2.基因组注释结果gff3格式3.模式物种或近缘物种的基因家族的蛋白序列fasta格式二、软件1.TBtools (https://github.com...

RNA-seq丨转录组分析标准流程与常用工具

2023-03-21
原创 Jewel Z 生信分析笔记 2022-10-08 17:11 发表于北京笔记内容:RNA-seq转录组基础知识与标准分析流程介绍,简单记录学习过程。转录组分析是对样本转录产物RNA的深入挖掘研究。通常情况下,植物的表型差异可能由许多因素控制,其中包括基因的转录环节,不同基因的转录情况有所不同,可能会使表型发生变化。差异表达分析是对mRNA测序后获得表达矩阵,研究不同基因的表达量差异,...

如何在Linux中进行本地Blast序列比对?

2023-03-20
Je 生信分析笔记 2022-11-18 16:43 发表于北京今天分享一篇学习笔记,主要包含本地化blast序列比对和数据提取方法。首先,需要准备RNA数据和蛋白质数据,本次利用蛋白质数据建立索引库,然后将RNA比对到蛋白质序列。RNA数据创建一个目录,导入mRNA序列数据,通常是一个fasta后缀文件。在工作目录下创建alignment文件夹将mRNA序列数据文件wheat-test....

文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控

2023-03-17
原创 Je 生信分析笔记 2022-12-04 21:30 发表于陕西文献精读笔记全文约7000字,阅读预计耗时21分钟英文题目:Systematic mining and genetic characteriza;tion of regulatory factors for wheat spike development中文题目:小麦穗发育调控因子的系统挖掘及遗传特性研究通讯作者:Jun ...

转录组下游分析丨利用limma包进行差异表达分析,结果可视化绘制火山图和热图

2023-03-16
原创 Jewin BioinfNote 生信分析笔记 2023-02-23 09:00 发表于北京limma差异表达分析本篇笔记的内容是在R语言中利用limma包进行差异表达分析,主要针对转录组测序得到的基因表达数据进行下游分析,并将分析结果可视化,绘制火山图和热图。环境部署与安装输入数据准备差异表达分析过程准备环节数据导入构建分组矩阵构建比较矩阵线性混合模拟差异基因标注结果保存区分上下调基...

转录组分析丨一套完整的操作流程简单案例

2023-03-15
原创 Jewel Z 生信分析笔记 2022-12-11 18:00 发表于陕西“今天分享的学习笔记是一套转录组分析简单流程,适用于初学者入门阅读,从原始测序数据开始,经过质控、序列比对、定量表达、差异表达、功能富集等一系列分析步骤,最终获得基因表达信息,制作出火山图和功能富集图。本文所有数据都经过特殊修改,仅供学习参考使用。”转录组是在特定时空条件下细胞中基因转录表达产物,广义的转录...

文献分享丨GWAS分析菜用大豆可溶性糖含量调控基因

2023-03-14
原创 nature 生信分析笔记 2022-11-04 17:13 发表于北京文献:菜用大豆可溶性糖含量的GWAS及相关候选基因的鉴定摘要可溶性总糖(TSS)是大豆籽粒的重要成分,对大豆风味有重要影响。作者在两种环境下对264份种质资源进行了调查。利用GWAS获得了27个有意义的SNPs关联。两种环境中均鉴定出显著的SNPs。利用RT-PCR技术对菜用大豆种子中TSS含量进行鉴定,并进行...