最近正值秋招,許多朋友也都拿到了心儀的offer,不過也有不少的朋友還在
網申 ——> 筆試 ——> 被刷
之中反複循環,而導緻這一現狀的重要原因很有可能是自己不懂得總結歸納,就算是一次簡單的筆試,自己也應該懂得去總結複盤,切勿在每次的筆試中犯同樣的錯誤。
那麼今天,我給大家帶來了一份關于資料分析崗位的筆試題,題目基本上還原了全部的真實考題,并附帶了詳細解析,希望有需要的朋友趕緊收藏起來,并仔細閱讀,後續我也會不斷更新其他的筆試卷子,有需要的朋友可以關注我,或者訂閱我的資料分析專欄,裡面還有許多與資料分析相關的博文,快去閱讀吧。
目錄
- 一、35道單選題
- 二、2道程式設計題
- 結束語
一、35道單選題
1、mysql導出資料的指令是()
解析:
mysqldump -u 使用者名 -p 資料庫名 > 導出的檔案名
mysqldump -u root -p --databases db_name > test_db.sql ##得到整個資料庫,最全面;不要–databases也行,就是不夠資訊全面。
2、0, 3, 2, 5, ()
解析: 4
分開看奇數位和偶數位,視其為等差數列。
3、PMF, PDF, CDF
解析:
PDF:機率密度函數(probability density function), 在數學中,連續型随機變量的機率密度函數(在不至于混淆時可以簡稱為密度函數)是一個描述這個随機變量的輸出值,在某個确定的取值點附近的可能性的函數。
PMF : 機率品質函數(probability mass function), 在機率論中,機率品質函數是離散随機變量在各特定取值上的機率。
CDF : 累積分布函數 (cumulative distribution function),又叫分布函數,是機率密度函數的積分,能完整描述一個實随機變量X的機率分布。
4、某長度為n的字元串,且串中字元不重複,問有多少個子串?
解析: n ( 1 + n ) 2 \frac{n(1+n)}{2} 2n(1+n)
5、1/2, 1/6, 1/12, 1/20, 1/30, ()
解析:
分母分别為 1 ∗ 2 , 2 ∗ 3 , 3 ∗ 4 , 4 ∗ 5 , 5 ∗ 6 1 * 2, 2*3, 3*4, 4*5, 5*6 1∗2,2∗3,3∗4,4∗5,5∗6,是以答案為1/42。
6、原題連結
解析:
CRF的優點:特征靈活,可以容納較多的上下文資訊,能夠做到全局最優
CRF缺點:速度慢
7、原題連結
8、原題連結
解析:
輪流制: 先抛的人吃到蘋果的機率: 1/2 + 1/2^3 + 1/2^5 + … 求得結果為 2/3
9、原題連結
解析:
n個頂點,每兩個頂點連成一條線,一共有 n ( n − 1 ) / 2 n(n-1)/2 n(n−1)/2條線。
10、一道SQL題
11、考交集并集
12、一道情景了解題好像,簡單。
13、1, 13, 45, 169, ()
14、順序查找的平均時間是多少?
A、n/2
B、n
C、n * n
D、log n
解析:
正确答案:A
平均時間的計算方式如下~
首先,假定這個數組的長度為n。
目标等機率出現在任意位置,即出現在每個位置的機率均為1/(n+1),其中,找不到的機率也是1/(n+1)
然後,對于第i個位置,需要i次比較才能找出來,則找到的情況下,共需1+2+…+n次查詢,即(n*(n+1))/2。
找不到的情況下,也是n次查詢。
故平均時間為總比較數,除以位置數,即((n*(n+1))/2+n)/(n+1)=n/2+n/(n+1)。
如果一開始直接當找到,算出來就是(n+1)/2
兩個結果都可以當作是n/2
15、一道簡單的邏輯了解題。
16、原題連結
17、一道簡單的考單調區間的題,應該是問 e x 2 e^{x^2} ex2的單調遞增區間。
18、問以下哪個屬于分類算法?() B
A、EM
B、C4.5
C、DBSCAN、
D、Kmeans
19、圖形推理題
20、求四分位數極差(11, 23, 27, 33, 68, 55, 23)
解析:
四分位數(Quartile),即統計學中,把所有數值由小到大排列并分成四等份,處于三個分割點位置的數值就是四分位數。
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示項數
第1個和第3個四分位數之間的距離是散布的一種簡單度量,它給出被資料的中間一半所覆寫的範圍。該距離稱為四分位數極差(IQR),定義為 IQR = Q3 - Q1
排序後:11 ,23, 23, 27,33 ,55,68
Q1位置:(7+1)0.25 = 2 對應數23
Q3位置:(7+10.75) = 6 對應數55
四分位數極差55-24 = 32
21、計算題,easy
22、SVM能用于線性不可分的資料嗎?能
23、500桶酒,其中有一桶毒酒,喝下後一周發作,現要用小白鼠來做實驗,且要求一定要在一周後找出毒酒,請問最少需要多少隻小白鼠?9
解析:
需要9隻小白鼠
将500桶毒酒進行編号,并用二進制表示.得到000000001~111110100.
每隻小白鼠對應二進制的每一位,然後喝下對應位數為1的那個編号的毒酒
然後根據死亡的小白鼠編号,進而獲得毒酒的編号。
如毒酒編号為350,那麼二進制對應為101011110.難麼囚犯234579會死亡.
24、矩陣A、B、C,大小分别為 m ∗ n , n ∗ p , p ∗ q m * n, n * p, p * q m∗n,n∗p,p∗q,且 m < n < p < q m<n<p<q m<n<p<q,請問下列哪種計算方法效率最高?B
A、(AC)B
B、(AB)C
C、A(BC)
D、一樣
解析:
A顯然是錯的,不論這些矩陣是否能那樣乘,乘出來的結果都無法保證和ABC相等
隻有B, C這兩種計算次序能産生正确結果
B的計算量是2mnp+2mpq,C的計算量是2npq+2mnq,兩者相減可得A的計算量較小
這裡假定“效率”直接由計算量決定。
25、原題連結
解析:
資料庫中的資料模型有三種,分别為層次模型、網狀模型和關系模型。其中,層次模型是樹型結構,網狀模型為網狀結構,關系模型是表結構或二維表結構。
26、對于含有n個頂點的帶權連通圖,它的最小生成樹是指圖中任意一個()C
A、由n-1條權值最小的邊構成的子圖
B、由n-1條權值之和最小的邊構成的子圖
C、由n-1條權值之和最小的邊構成的連通子圖
D、由n個頂點構成的邊的權值之和最小的連通子圖
27、有n個頂點的平衡二叉搜尋樹,每個頂點都是整數,現有一個整數a,請問找出樹中與整數a最接近的數的時間複雜度是()
A、 O ( l o g n ) O(logn) O(logn)
B、 O ( n 2 ) O(n^2) O(n2)
C、 O ( n l o g n ) O(nlogn) O(nlogn)
D、 O ( n ) O(n) O(n)
解析:
平衡二叉樹的時間複雜度是log(n),如果二叉樹的元素個數為n,那麼不管是對樹進行插入節點、查找、删除節點都是log(n)次循環調用就可以了。它的時間複雜度相對于其他資料結構如數組等是最優的。
28、原題連結
解析:
D(XY) = E{[XY-E(XY)]^2}
= E{X²Y²-2XYE(XY)+E²(XY)}
= E(X²)E(Y²)-2E²(X)E²(Y)+E²(X)E²(Y)
= E(X²)E(Y²)-E²(X)E²(Y)
如果 E(X) = E(Y) = 0,
那麼 D(XY) = E(X²)E(Y²) = D(X)D(Y),
也就是說當 X,Y獨立,且X,Y的數學期望均為零時,X,Y乘積 XY的方差D(XY)等于:
D(XY) = D(X)D(Y).
29、一道SQL題
30、下列哪種方法不屬于建立新屬性的方法? B
A、映射資料到新的空間
B、特征修改
C、特征提取
D、特征生成
31、有關線性變換的題
32、有序清單的最快排序算法是?
解析:
簡單排序的算法(直接插入,冒泡,簡單選擇排序)簡單且穩定,适合與待排記錄較小的情況,當當待排序的關鍵碼序列已經基本有序時,用直接插入排序最快。
就平均時間的性能而言,快速排序最佳,即排序速度最快,是以在随機情況下,快速排序是最佳選擇。一般情況下,快速排序效率最好。
33、求時間複雜度的題。
34、語境了解題
35、原題連結
解析: 1 2 ∗ 1 2 ∗ 1 2 + 1 2 ∗ 1 2 ∗ 1 2 = 1 4 \frac{1}{2}*\frac{1}{2}*\frac{1}{2}+\frac{1}{2}*\frac{1}{2}*\frac{1}{2}=\frac{1}{4} 21∗21∗21+21∗21∗21=41
二、2道程式設計題
1、原題連結
select *
from order_info
where datediff(date,"2025-10-15")>0
and status = "completed"
and product_name in("C++","Java","Python")
order by id
2、原題連結
select
a.user_id,
min(a.date) as first_buy_date,
max(a.date) as second_buy_date,
a.cnt
from
(select
user_id,
date,
row_number() over(partition by user_id order by date) as rank_no,
count(*) over(partition by user_id) as cnt
from order_info
where date>='2025-10-16'
and status='completed'
and product_name in('C++','Java','Python')
) a
where a.rank_no<=2 and a.cnt>=2
group by a.user_id,a.cnt
order by a.user_id ;
結束語
感謝收看,祝學業和工作進步!
推薦關注的專欄
👨👩👦👦 機器學習:分享機器學習實戰項目和常用模型講解
👨👩👦👦 資料分析:分享資料分析實戰項目和常用技能整理
CSDN@報告,今天也有好好學習