微軟最近釋出了兩個新的資料科學工具,用于互動式資料探索:模組化和報告。這些資料科學工具被稱為互動式資料探索、分析和報告(interactive data exploration, analysis and reporting,idear)和自動模組化和報告(automated modeling and reporting,amar)。資料科學團隊可以通過這些資料科學工具在他們的項目中完成一些具體任務。
資料科學團隊花了大量的時間寫代碼來回答資料相關的問題,如資料模式、丢失的資料元素、個體變量的分布和變換、在資料中特定的聚類模式以及機器學習(machine learning,ml)模型的性能等。這兩個工具可以用來在資料科學的生命周期中将這些常見的任務自動化。其目标是在組織内的不同項目之間保持資料科學的一緻性和完整性。
互動式資料探索:
idear工具可以用來探索、可視化和分析資料,并提供資料洞察。基于r studio的shiny庫,idear包含了資料導出和報告生成功能。資料導出功能可以儲存相關的r腳本,生成可視化資料并儲存到r日志檔案中。使用者可以運作r日志檔案來自動生成資料報告。
idear的其他功能包括自動變量類型檢測、變量排名和目标洩漏識别、可視化高維資料等。
自動模組化和報告:
amar用超參數掃描來訓練機器學習模型,比較模型的準确性并評估變量的重要性。在一個參數輸入檔案中我們指定ml模型去運作,指定把哪些資料用于訓練和測試,指定參數範圍去掃描并且指定選擇最佳參數的政策。
由amar工具生成的模型報告包含模型資訊、模型評價和比較以及特征排名。
idear和amar工具在cran-r中運作,并能夠在github網站上找到。這個庫是團隊資料科學過程(team data science process,tdsp)的一部分,上個月在微軟的機器學習和資料科學峰會上被推出。
如果你有興趣學習更多關于這些資料科學工具的内容,請檢視微軟technet部落格中的文章,或github網站上的azuretdsp utilities。
檢視英文原文:microsoft releases data science tools for interactive data exploration and modeling
本文轉自d1net(轉載)