M2 終審

1、團隊成員簡介

　　左邊：馬騰躍右邊：陳謀

　　左上：李劍鋒左下：仉伯龍右：盧惠明

團隊成員及部落格：

　　　　李劍鋒：　 Blog： http://www.cnblogs.com/Power-Byte/

　　　　陳謀： Blog: http://www.cnblogs.com/13061176Terry/

　　　　馬騰躍： Blog: http://www.cnblogs.com/summerMTY/

　　　　盧惠民： Blog: http://www.cnblogs.com/lhm924/

　　　　仉伯龍： Blog: http://www.cnblogs.com/zhangbolong/

2、軟體工程介紹

項目目标：

線上問答網站中散落着許多有價值的知識和有借鑒意義的經驗，然而對于一個不精通于資訊檢索的人來說要尋找這些有價值的資訊往往要耗費大量時間，甚至根本不能找到，故而本軟體在此需求的基礎上進行開發，以滿足使用者對于資訊檢索，資訊篩選，資訊翻譯，資訊可視化等方面的需求。

預期的典型使用者：

　　軟體的使用者方一方面是學霸線上教學問答系統背景的開發人員，開發人員可以通過軟體提供的接口來直接對于資料進行處理，開發人員具有專業計算機水準，

　　軟體的使用者方另一方面是普通使用者，本軟體将功能性的子產品進行內建與封裝并且提供UI接口服務于普通使用者對于資訊檢索，資訊篩選，資訊翻譯，資訊可視化等方面的需求。

預期的功能描述：

　　軟體産品功能主要包括定義線上教學問答網站的内容結構，能夠從爬到的内容中抽取中繼資料并将其納入到既定的組織結構中，在使用者查詢時能夠給予快速準确的響應，并且支援标簽，翻譯的功能。

線上問答網站的内容結構定義；

　　　　主要是對線上問答網站的組織進行格式化提取，（包括網站的使用者提出的問題，以及其他使用者給出的相應的解決方式），然後按照既定的格式整理并且存儲到資料庫中。

增量式的資料處理；

　　　　對于後續爬取得到的最新資料，能夠按照定義好的内容結構準确地合并到已有的内容中。

文本标簽；

　　　　對于使用者提出的問題所屬的類别使用标簽進行分類。

文本關鍵詞提取；

　　　　對于問題中所涉及的主要内容以及術語進行分類提取。

文本内容翻譯；

　　　　滿足基于不同語言背景的使用者搜集檢索資料的需求。

使用者界面與使用者進行互動。

　　　　滿足界面友好的要求，對于使用者來說易于上手，易于使用。

給線上組和app手機用戶端組上傳資料

　　　　當有需求的時候，我們會給線上組上傳一定量的資料，由于給網站上傳大量資料的時候會給網站伺服器增加負擔，有時網站拒絕通路，有時網站崩潰，是以每次我們隻上傳一定量的資料，進而讓上傳資料變得穩定。

預期使用者

由于我們的應用是給學霸用戶端和線上系統使用，是以的目标就是給他們定時提供資料。

3、産品需求及回報

需求	回報
1.上傳資料（線上組、手機app組）	1.定義Json規格，定義上傳檔案類型 2.通過Json向Solr這個搜尋引擎背景上傳資料
2.視訊檔案（線上組）	1.向爬蟲組提出要求，并且定時進行交流。 2.效果不盡如人意
3.問答（線上組、手機app組）	1.剛開始用Stackoverflow的資料進行測試上傳 2.實作搜搜問問、百度知道、德問、cnblogs資料處理
4.對标簽進行定義（線上組）	1.通過stackoverflow的api對相應的标簽進行定義。 2.其他标簽從文章中抽取。
5.标簽、關鍵詞結果分析（老師）	1.與學長的進行了相應的對比，從F值來看，我們的測試效果比學長高17.8個百分點左右
6.兩個後端（老師）	1.将處理資料和上傳資料分成兩部分，不同使用者可以登陸不同後端進行相應的操作。

使用者評價：

線上組	資料能夠用，但是上傳的資料太少
app組	資料現在能用的太少

4、預期目标以及實際情況

預期目标

1.處理數量 60000條上傳數量8000條

2.能夠處理pdf、ppt、視訊、doc

3.問答網站：搜搜問問、百度知道、德問、cnblogs、stackoverflow、知乎

實際情況

1.實際處理數量 55308條上傳數量240條

2.實際能處理的檔案pdf、ppt、小部分視訊

3.實際問答網站：搜搜問問、百度知道、德問、cnblogs、stackoverflow

　　由于後期時間原因，我們與線上組和app組的交流比較少，導緻我們在Json格式定義、測試方面比較緩慢；

視訊部分能夠處理是因為我們獲得的檔案不都是特别好，有些是因為視訊的相關文本資料太少，是以沒法給其

添加标簽、關鍵字等重要搜尋關鍵字。

5、分工協作

　　我覺得一個PM在擔當總的設計、建構是不太好的，我真心的認為兩個規劃能力好的同學共同擔當效果會更好。

因為我在統籌規劃的同時真心地覺得自身能力的不足，無法完美地擔任這個職責，是以我覺得至少有一個人監督會更好。

6、平衡時間/品質/資源

時間

資料庫建構	陳謀	5
爬取Tags		3
完成txt、html、pdf、ppt、doc(x)、xls(x)等常見文本的挖掘		20
完成線上系統的需求分析及解答	馬騰躍
測試不同問答網站分析的結果		12
UI	李劍鋒	8
完成stackoverflow網站的資料挖掘工作
完成知乎網站的資料挖掘工作
視訊連結挖掘	盧惠民	6
測試Tags的正确率、召回率、F值等		14
産品說明書	仉伯龍
與爬蟲組進行溝通交流分析
完成與手機用戶端的需求交流，并實時更新需求	劉夕霆
對軟體進行詳細的功能測試		16

品質

進行了單元測試

資源

我們人力資源、物力資源都比較充足

7、軟體品質

對每一個功能都進行了單元測試，雖然有些測試并非完全覆寫，但是總體來說我們的功能比較完善，而且bug比較少

8、M2階段的實際進展

M2 終審

9、團隊成員在M2的角色和具體貢獻

名字	角色	具體的, 可衡量的, 可驗證的貢獻	得分
	PM & Dev	寫了10篇部落格，多次和爬蟲組、用戶端、線上系統進行溝通，寫了 3213行代碼	90
	Dev & Test	寫了823行代碼, 200行注釋, 1篇部落格	60
盧惠明		完成關鍵詞抽取，寫了495行代碼，并完成相應的測試，2篇部落格	40
	Dev & Test	測試了關鍵詞抽取代碼，寫了235行代碼，測試其結果等	37
劉夕霆		與android用戶端組進行溝通，寫了276行代碼，測試最終版本	35
馬騰躍		寫了276行代碼,與線上組進行溝通、交流	38

10、成果展示

登陸界面

主界面：

添加文本：

原始資料：

去噪：

分詞：

翻譯原文本：（API）

翻譯譯文：

中英對照：

最終結果：

上傳資料

11、軟體Bug

　　我們的軟體管理中遇到的Bug基本上在http://www.cnblogs.com/cheneygroup/p/5117810.html

12、個人總結

李劍鋒：在Beta階段我們完成了既定的目标，而且我們通過不斷溝通，與另外三組一同建構了完整的架構，進而在工作的開展過程中很是愉快。但是由于時間的原因，我們沒能夠完成既定的目标，這是我們的遺憾！
陳謀：知識和能力都是在不斷地學習和鍛煉中累積的，我們在Beta階段這種高壓狀态下，仍堅持進行各項任務，我們确實付出了，也确實收獲了，感謝軟工給予我們不斷超越自我的。
盧惠明：這一階段我主要負責測試，雖然測試比較枯燥無味，但是确實是一項很有用的技能。
劉夕霆：軟工，我實在不敢恭維。太累了，希望老師減負！。。。不過，我在這幾次團隊作業中收獲了很多很多，謝謝老師。
仉伯龍：我處理不少事情，但是我感覺學的不是特别多。我相信隻要我們不斷進取，不斷探索，我一定能夠學到更多，明白更多，最後在理論知識、實踐知識方面有了更高的認識。
馬騰躍：我是這組裡唯一的女生，交流起來真的不是特别友善，但是我仍然在盡職盡責地完成PM布置下來的任務，總的來說這階段我測試任務很多，實質性的開發并不是特别多。