R語言讀取檔案

2023-03-13 01:32:48

本文的主要内容是讀取檔案内容，并且将檔案中的所有内容沒咧放在一個對象當中，以便之後進行操作，樣本資料如下

kernel coorauthor num

鄭稱德丁俊武 1

鄭稱德韓玉啟 2

鄭稱德周梅 3

丁俊武韓玉啟 4

丁俊武鄭稱德 4

丁俊武周梅 4

丁俊武仇成 43

丁俊武馮俊文 1

丁俊武高常青 321

韓玉啟丁俊武 312

韓玉啟鄭稱德 21

韓玉啟周梅 42

張瑞紅檀潤華 21

張瑞紅劉芳 21

張瑞紅楊伯軍 213

張瑞紅江屏 12

張瑞紅苑彩雲 21

張瑞紅曹東興 21

張瑞紅馬建紅 21

張瑞紅張換高 12

張瑞紅曹國忠 21

張瑞紅李樹洋 32

kernel<-0                  #将檔案中的第一列的資料放在kernel對象當中
coorauthor<-0              #将檔案中的第二列資料放在coorauthor對象當中
num<-0                     #将檔案中的第三列資料放在num當中
count<-0                   #記錄目前讀到第count行了，同時也是以上三對象的索引值
count[1]<-0
input<-file("E:\\sample.txt","r")
line=readLines(input,n=1)
line=readLines(input,n=1) #由于第一行不是資料，是以直接跳過第一行
while(length(line)!=0)
{
   count[1]=count[1]+1
   va=strsplit(line,"\t")#樣本中每個資料間隔就是tab
   kernel[count[1]]=va[[1]][1]
   coorauthor[count[1]]=va[[1]][2]
   num[count[1]]=va[[1]][3]  
   line=readLines(input,n=1)   
}
close(input)
var_1<-0
tmp_1=setdiff(kernel,var_1)#setdiff是求得kernel集合和var_1集合當中的差集，也就是kernel當中非重複元素，然後放在tmp_1當中，其中kernel和var_1的順序無關
var_2<-0
tmp_2=setdiff(coorauthor, var_2)
var_1_len=length(tmp_1)#第一個作者的數量
var_2_len=length(tmp_2)#第二個作者的數量
var_sum<-0#目标數組清空
for(i in 1:var_1_len)
{
var_sum[i]=tmp_1[i]#将第一列中的作者姓名放在var_sum當中
print(var_sum)
}
from=var_1_len+1#記錄下所有的var_sum數組中下一個元素的位置，由此開始記錄
to=var_1_len+var_2_len
for(i in from:to)
var_sum[i]=tmp_2[i-var_1_len]
var_sum=setdiff(var_sum,var_1)#到此獲得了所有的作者姓名并且無重複

R語言讀取檔案

繼續閱讀

生物資訊學入門使用 GEO基因晶片資料進行差異表達分析（DEG）——Limma 算法資料代碼結果解讀

為什麼選擇R語言為什麼選擇R語言

Aspera/FTP下載下傳SRA/fastq檔案後根據樣本資訊進行批量重命名

bam格式轉換為Fastq/Fasta格式bam格式轉換為Fastq/Fasta格式

非參數統計分析

R語言實戰 - 基本統計分析（1）- 描述性統計分析

跟着Cell學單細胞轉錄組分析(十二):轉錄因子分析

R語言|繪制三維圖

資料的歸一化（Normalization）、标準化（Standardization）

R語言| 中介效應分析，Mediation包和BruceR包，循環Process函數

【R語言】GARCH模型的應用一、資料來源二、資料分析三、模型建立四、模型優化五、結論六、實作代碼七、參考資料

Python TensorFlow循環神經網絡RNN-LSTM神經網絡預測股票市場價格時間序列和MSE評估準确性

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

Lagrange插值的R語言實作

R語言-相關性分析函數

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化