天天看點

金融資料分析與挖掘具體實作方法 -1

通常狹義的金融市場特指有價證券(股票、債券)發行和流通的場所。

股票、債券是用來資本流通的金融産品,廣義上的金融市場還包含貨币市場,其中代表性的是期貨市場等。 其實不管是資本市場,還是貨币市場,都是可以提供給投資者投資的地方,其中貨币市場以期貨為代表的适合短期投資,而以股票代表的證券市場适合長期投資! 常見機構:銀行、投資銀行(證券公司)、保險公司、基金等 有價證券:是虛拟資本的一種形式,它本身沒價值,但有價格。

發行市場:又稱為處理新發行證券的金融市場,籌集資金的公司、政府或公共部門通過發行新的股票和債券來進行融資。

流通市場:又稱二級市場,是指已經發行的證券進行轉讓、交易的市場。

我們通過一張圖來了解一下:

金融資料分析與挖掘具體實作方法 -1

關于投資的幾個類别,一般我們将天使、VC、PE三個部分統稱為私募(Private Equity),指的是沒有在證券交易所公開上市交易的資産。

1、公司規模

天使投資主要投資早期創業公司;

VC投資中期高速發展型創業公司;

PE介入即将上市或被兼并收購的成熟企業。

2、資金規模

天使投資:500萬以下 VC投資:千萬 PE:千萬級别以上

證券交易所

買賣股票、公司債等有價證券的市場

金融資料分析與挖掘具體實作方法 -1

證券公司:

可以承銷發行、自營買賣或自營兼代理買賣證券

金融資料分析與挖掘具體實作方法 -1
金融資料分析與挖掘具體實作方法 -1

注:政府、公司等發行股票、債券目的為了進行融資、發展等

股票,是股份公司簽發的證明股東所持股份的憑證,代表了股東對股份公司淨資産的所有權。

特點:每股股票都代表股東對企業擁有機關的所有權,所擁有的份額取決于持有的股票數量總占比。本身沒有價格,代表一種價值

按股東權利分類,股票可分為普通股、優先股等

普通股是指在公司的經營管理和盈利及财産的配置設定上享有普通權利的股份,代表滿足所有債權償付要求及優先股東的收益權與求償權要求後對企業盈利和剩餘财産的索取權。普通股構成公司資本的基礎,是股票的一種基本形式。現上海和深圳證券交易所上進行交易的股票都是普通股。 普通股股東 (1)公司決策參與權。普通股股東有權參與股東大會,并有建議權、表決權和選舉權,也可以委托他人代表其行使其股東權利。 (2)利潤配置設定權。普通股股東有權從公司利潤配置設定中得到股息。普通股的股息是不固定的,由公司赢利狀況及其配置設定政策決定。普通股股東必須在優先股股東取得固定股息之後才有權享受股息配置設定權。 (3)優先認股權。如果公司需要擴張而增發普通股股票時,現有普通股股東有權按其持股比例,以低于市價的某一特定價格優先購買一定數量的新發行股票,進而保持其對企業所有權的原有比例。 (4)剩餘資産配置設定權。當公司破産或清算時,若公司的資産在償還欠債後還有剩餘,其剩餘部分按先優先股股東、後普通股股東的順序進行配置設定。 優先股相對于普通股。優先股在利潤分紅及剩餘财産配置設定的權利方面優先于普通股。 (1)優先配置設定權。在公司配置設定利潤時,擁有優先股票的股東比持有普通股票的股東,配置設定在先,但是享受固定金額的股利,即優先股的股利是相對固定的。 (2)優先求償權。若公司清算,配置設定剩餘财産時,優先股在普通股之前配置設定。注:當公司決定連續幾年不配置設定股利時,優先股股東可以進入股東大會來表達他們的意見,保護他們自己的權利。

根據上市地區可以分為,我國上市公司的股票有A股(在上海和深圳上市)、B股(上海和深圳上市,其中上海B股以美元結算,深圳B股以港元結算),H股(香港交易所上市,在大陸運作的公司)。并且還有一些N股和S股等的劃分。這一區分主要依據股票的上市地點和所面對的投資者而定

根據業績也分為:ST股、垃圾股、藍籌股 等

藍籌股:股票市場上,那些在其所屬行業内占有重要支配性地位、業績優良,成交活躍、紅利優厚的大公司。

在進行股票投資的時候,我們會使用價值投資方式。選擇公司前景好、業績好的一些公司

A股即人民币普通股票。它是由我國境内的公司發行,供境内機構、組織或個人(不含港、澳、台投資者)以人民币認購和交易的普通股股票。

特點: A股不是實物股票,以無紙化電子記帳,實行T+1交易制度

T+1制度 自1995年1月1日起,為了保證股票市場的穩定,防止過度投機,股市實行“T+1”交易制度,當日買進的股票,要到下一個交易日才能賣出。同時,對資金仍然實行“T+0”,即當日回籠的資金馬上可以使用。 T+1是一種股票交易制度,即當日買進的股票,要到下一個交易日才能賣出。 “T+1"中"T"指的是交易登記日,"T+1"指的是交易登記日的第二天。

我們可以看到這樣的符号:

金融資料分析與挖掘具體實作方法 -1

股票代碼用數字表示股票的不同含義。股票代碼除了區分各種股票,也有其潛在的意義,比如600*是上交所上市的股票代碼,6006是最早上市的股票,一個公司的股票代碼跟車牌号差不多,能夠顯示出這個公司的實力以及知名度

1、滬市A股票買賣的代碼是以600、601或603打頭(在上海證券交易所上市的全是主機闆) 2、深市A股票買賣的代碼是以000打頭,其中中小闆代碼以002打頭,創業闆股票代碼以300打頭
金融資料分析與挖掘具體實作方法 -1

股票價格(Stock Price)又叫股票行市,是指股票在證券市場上買賣的價格。股票在流通市場上的價格,才是完全意義上的股票的市場價格

股票初始發行價格=市盈率還原值×40%+股息還原率×20%+每股淨值×20%+預計當年股息與一年期存款利率還原值×20%,影響股票價格的因素有很多,如企業因素、盈利情況、淨資産、市場、行業等

股票交易時間

休息日:周六、周日和上證所公告的休市日不交易。(一般為五一、十一國慶節、春節、元旦、清明節、端午節、中秋節等國家法定節假日)

股票交易過程

(一)、集合競價階段:9:15 — 9:25

1、9:15 — 9:19可以申報和撤單;9:20 — 9:25 可以申報,不可以撤單。

2、深圳交易所14:57 — 15:00實行集合競價,可以申報,不可以撤單。

(二)、連續競價階段

1、上海交易所:9:30 — 11:30;13:00 — 15:00

2、深圳交易所:9:30 — 11:30;13:00 — 14:56:59

金融資料分析與挖掘具體實作方法 -1

(三)成交原則

價格優先,時間優先

即使在國内對于A股來說,目前總共有3000多隻股票。并且數字可能随着時間會不斷改變,如何更好的管理這些上市公司?實作怎樣的制度去區分公司的規模大小?

主機闆:市場占有率高、規模較大、基礎較好、高收益、低風險的大型優秀企業。

中小闆:主要服務于即将或已進入成熟期、盈利能力強、但規模較主機闆小的中小企業。

創業闆:是以自主創新企業及其他成長型創業企業為服務對象,主要為“兩高”、“六新”企業,即高科技、高成長性、新經濟、新服務、新農業、新能源、新材料、新商業模式企業。

新三闆:主要為創新型、創業型、成長型中小微企業發展服務。

在選擇購買股票的時候,有時候會根據劃分依據去選擇特定指數、行業、闆塊下的股票!!!

金融資料分析與挖掘具體實作方法 -1
金融資料分析與挖掘具體實作方法 -1
金融資料分析與挖掘具體實作方法 -1

股票在流通市場上的價格,才是完全意義上的股票的市場價格,一般稱為股票市價或股票行市。股票市價表現為開盤價、收盤價、最高價、最低價等形式。其中收盤價最重要,是分析股市行情時采用的基本資料。 

金融資料分析與挖掘具體實作方法 -1

K線圖這種圖表源處于日本德川幕府時代,被當時日本米市的商人用來記錄米市的行情與價格波動,後因其細膩獨到的标畫方式而被引入到股市及期貨市場。

金融資料分析與挖掘具體實作方法 -1

K線的計算周期可将其分為日K線,周K線,月K線,年K線

很多網站提供了日線、周K線、月K線等周期資料,但是最原始的隻有日K線的資料。我們需要自己去生成計算不同頻率的資料

DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None,kind=None,)

頻率轉換和時間序列重采樣,對象必須具有類似日期時間的索引(DatetimeIndex,PeriodIndex或TimedeltaIndex)

金融資料分析與挖掘具體實作方法 -1

日K周K對比:

金融資料分析與挖掘具體實作方法 -1
周K線是指以周一的開盤價,周五的收盤價,全周最高價和全周最低價來畫的K線圖 大部分周線的名額是這個日線名額在這一周最後一個交易日的值。比如周線的’close’應該等于這一周最後一天日線資料的‘close’,但是有的名額是例外,比如周線的’high’應該等于這一周所有日線‘high’中的最大值

接下來我們還是使用之前stock_day當中的某個股票的行情資料

将索引轉換成DatetimeIndex類型

對不同名額進行重采樣

對于其中存在的缺失值

金融資料分析與挖掘具體實作方法 -1

  

我們可以将計算出來的周K和原先的日K畫圖顯示出來

畫出K線圖顯示

金融資料繪制需要使用mpl_finance架構, 通過pip 安裝即可

 上市公司會時不時的發生現金分紅、送股等一系列股本變動,這會造成股價的非正常變化,導緻我們不能直接通過股價來計算股票的漲跌幅。這種資料我們也稱之為除權資料。

金融資料分析與挖掘具體實作方法 -1

是以我們要對這種資料做處理,也稱之為複權資料。怎麼進行複權呢?

主要用于基本面分析,主要側重于從股票的基本面因素,如企業經營能力,财務狀況,行業背景等對公司進行研究與分析,試圖從公司角度找出股票的“内在價值”,進而與股票市場價值進行比較,挑選出最具投資價值的股票。

時間序列是一組按照時間發生先後順序進行排列的資料點序列。通常一組時間序列的時間間隔為一恒定值(如1秒,5分鐘,12小時,7天,1年),是以時間序列可以作為離散時間資料進行分析處理。

例如:某監控系統的折線圖表,顯示了請求次數和響應時間随時間的變化趨勢

金融資料分析與挖掘具體實作方法 -1

pd.to_datetime():轉換成pandas的時間類型 Timestamp('2018-03-02 00:00:00')

1、轉換時間序列類型

2、Pandas的時間序列類型:DatetimeIndex

我們也可以通過DatetimeIndex來轉換

3、通過pd.DatetimeIndex進行轉換

pandas時間序列series的index必須是DatetimeIndex

DatetimeIndex的屬性

year,month,weekday,day,hour….

pandas.date_range(start=None, end=None, periods=None, freq='D', tz=None, normalize=False, name=None, closed=None, **kwargs)

Returna fixed frequency DatetimeIndex, with day (calendar) as the default frequency

start:開始時間

end:結束時間

periods:産生多長的序列

freq:頻率 D,H,Q等

tz:時區

金融資料分析與挖掘具體實作方法 -1

對于時間序列類型,有特有的分析方法。同樣股票本身也是一種時間序列類型,我們就以股票的資料來進行時間序列的分析

時間序列分析( time series analysis)方法,強調的是通過對一個區域進行一定時間段内的連續觀察計算,提取相關特征,并分析其變化過程。

時間序列分析主要有确定性變化分析

确定性變化分析:移動平均法, 移動方差和标準差、移動相關系數

主要用在時間序列的數組變換, 不同作用的函數将它們統稱為移動視窗函數

金融資料分析與挖掘具體實作方法 -1

那麼會有各種觀察視窗的方法,其中最常用的就是移動平均法

移動平均線(Moving Average)簡稱均線, 将某一段時間的收盤價之和除以該周期

金融資料分析與挖掘具體實作方法 -1

移動平均線依計算周期分為短期(5天)、中期(20天)和長期(60天、120天),移動平均線沒有固定的界限

移動平均線依據算法分為算數、權重法和指數移動平均線

不同的移動平均線方法不一樣

簡單移動平均線(SMA),又稱“算數移動平均線”,是指特定期間的收盤價進行平均化比如說,5日的均線SMA=(C1+ C2 + C3 + C4 + C5) / 5

 

金融資料分析與挖掘具體實作方法 -1

例子:

金融資料分析與挖掘具體實作方法 -1

案例:對股票資料進行移動平均計算

金融資料分析與挖掘具體實作方法 -1

拿到股票資料,畫出K線圖

pandas.rolling_mean(arg, window, min_periods=None, freq=None, center=False, how=None, **kwargs) Moving mean.

Parameters:

arg : Series, DataFrame

window : 計算周期

權重移動平均線 (WMA)将過去某特定時間内的價格取其平均值,它的比重以平均線的長度設定,愈近期的收市價,對市況影響愈重要。

金融資料分析與挖掘具體實作方法 -1

正因權重移動平均線強調将愈近期的價格比重提升,故此當市況倒退時,權重移動平均線比起其它平均線更容易預測價格波動。但是我們還是不會輕易使用權重,應為他的比重過大!!!!

是因應移動平均線被視為落後名額的缺失而發展出來的,為解決一旦價格已脫離均線內插補點擴大,而平均線未能立即反應,EWMA可以減少類似缺點。

金融資料分析與挖掘具體實作方法 -1
金融資料分析與挖掘具體實作方法 -1

pd.ewma(com=None, span=one)

指數平均線

span:時間間隔

方差和标準差:反應某一時期的序列的穩定性

金融資料分析與挖掘具體實作方法 -1

pd.scatter_matrix(frame, figsize=None)

frame:DataFrame

金融資料分析與挖掘具體實作方法 -1

從中我們可以簡單看到成交量(volume)和換手率(turnover)有非常明顯的線性關系,因為換手率的定義就是:成交量除以發行總股數。

通過一些圖或者相關性分析可以找到強相關的一些名額,在機器學習、量化方向中會詳細介紹 相關系數:後面會介紹,目前我們隻需知道他是反應兩個序列之間的關系即可

移動平均線經常會作為技術分析的基礎理論,從中衍生出各種技術名額政策。後面将會介紹簡單的基于均線的政策。

繼續閱讀