如何從回歸分析到算法基礎？ _變量

回歸分析就是定量地描述自變量和因變量之間的關系，并根據這些數量關系對現象進行預測和控制的一種統計分析方法。這種預測稱為回歸分析預測，例如可以通過回歸去研究工程師薪資與工作年限的關系。
1 回歸分析簡介1.1 “回歸”一詞的來源
【如何從回歸分析到算法基礎？】“回歸”（）一詞來源于生物學，是由英國著名生物學家兼統計學家高爾頓******在研究人類遺傳問題時提出來的。1985～1990年期間，高爾頓發表多篇論文論證其觀點。在研究父與子身高的遺傳問題時，高爾頓搜集了1078對父子的身高數據，他發現這些數據的散點圖大致呈直線狀態。也就是說，總的趨勢是父親的身高增加時，兒子的身高也傾向于增加。高爾頓進而分析出子代的身高_y_與父親的身高_x_大致可歸結為直線關系，并求出了該直線方程（單位：英寸，1英寸=2.54cm）：
。
這種趨勢及回歸方程表明的內容如下：
以上就是統計學上最初出現“回歸”時的含義，高爾頓把這一現象叫作“向平均數方向的回歸”（）。雖然這是一種特殊情況，與線形關系擬合的一般規則無關，但“線形回歸”的術語卻因此沿用下來，作為根據一種變量（父親身高）預測另一種變量（子女身高）或多種變量關系的描述方法。之后，回歸分析的思想滲透到了數理統計的其他分支。隨著計算機的發展以及各種統計軟件包的出現，回歸分析的應用越來越廣泛。
1.2 回歸與相關
客觀事物在發展過程中是彼此聯系、相互影響的，在數據挖掘的過程中常常要研究兩個或者兩個以上的變量之間的關系，各種變量間的關系大致可以分為完全確定關系（函數關系）和非確定性關系。
（1）完全確定關系：
可以用精確的數學表達式來表示，即當變量_x_的取值確定后，_y_有唯一的確定值與之對應，如圓形的面積（A）與半徑（r）之間的關系為
。
（2）非確定關系：
不能用精確的數學公式來表示，當變量_x_的取值確定后，_y_有若干種可能的取值，如父代身高與子代身高之間、房價與人口密度之間，等等。這些變量間都存在著十分密切的關系，但是不能通過一個或者幾個變量的值來精準地計算出另外一個變量的值。統計學中把這些變量間的關系稱為相關關系，把存在相關關系的變量稱為相關變量。
在一定的范圍內，對一個變量的任意數值
，雖然沒有另一個變量的確定數值
與之對應，但是卻有一個特定
條件概率分布與之對應，這種變量的不確定關系，稱為相關關系。通常，相關變量間的關系一般分為因果關系和平行關系。
（1）因果關系：一個變量的變化受另一個或幾個變量的影響，如玉米的生長速度受種子的遺傳特性、管理條件等影響。統計學上采用回歸分析方法來研究呈因果關系的相關變量之間關系。表示原因的變量成為自變量，表示結果的變量成為因變量。
（2）平行關系：變量之間互為因果或共同受另外的因素影響，如人的身高和胸圍。統計學上采用相關分析******來研究呈平行關系的相關變量之間的關系。
1.3 回歸模型的劃分與應用1．回歸模型的劃分
回歸問題分為模型學習和預測兩個過程。即先基于給定的訓練數據集構建一個模型，再根據新的輸入數據預測相應的輸出。
回歸問題按照輸入變量的個數可以分為一元回歸和多元回歸，按照輸入變量和輸出變量之間關系的類型人工智能計算器32，可以分為線性回歸和非線性回歸。
2．回歸模型的應用
如圖9-1所示。
▲圖9-1 回歸模型的應用
2 線性回歸分析實戰2.1 線性回歸的建立與求解
首先來看一個工作年限與年收入的例子。
工作年限是指職工以工資收入為全部或主要來源的工作時間。工作年限的長短標志著職工參加工作時間的長短，也反映了他對社會和企業的貢獻大小以及知識、經驗、技術熟練程度的高低。有5年工作經驗的員工，往往要比只有兩年工作經驗的員工業務精通度、技術熟練度更高，所以工資也更高。
小明在北京從事算法工作，整理了身邊5個從事算法工作同事的數據，工作年限與年收入數據如表9-1所示（單位：十萬元）。
表9-1 工作年限與年收入表
序號工作年限（Years of ）年收入（）2
試建立工作年限與年收入之間的關系式。
（1）首先針對表9-1描出散點圖如圖9-2所示。
從圖9-2中可以看出，6個點整體呈現線狀分布，這說明兩個變量之間存在線性相關關系。
▲圖9-2 根據表9-1數據所做的散點圖
其中，式（9-2）稱為一元線性回歸模型。

文章插圖

文章插圖
（2）利用最小二乘法求解方程。
2.2 求解回歸模型案例
本節將通過完成計算，數據集見表9-2，文件名為data.xlsx 。
表9-2 回歸分析數據集
工作年限年收入
【例9-1】回歸分析，程序運行結果如圖9-3所示
輸入：

#!usr/bin/env python#_*_ coding:utf-8 _*_#1.導入需要的包import pandas as pdfrom sklearn import linear_modelimport matplotlib.pyplot as plt#2.通過pd.read_excel獲取數據，并分別存入變量值X_parm，Y_parmdef get_data():data = https://www.jianzixun.com/pd.read_excel("data.xlsx")X_parm = []Y_parm = []for x ,y in zip(data['years'],data['income']):#存儲在相應的list列表中X_parm.append([float(x)])Y_parm.append(float(y))return X_parm,Y_parmOutput#3.構建線性回歸并計算def linear_model_main(X_ parm,Y_ parm,predict_value):# Create linear regression objectregr = linear_model.LinearRegression()#train modelregr.fit(X_parm,Y_parm)predict_outcome = regr.predict(predict_value)pred= {}pred['intercept'] = regr.intercept_pred['coefficient'] = regr.coef_pred['predicted_value'] = predict_outcomeR_Square=regr.score(X_parm,Y_parm)return pred ， R_Square#4.繪出擬合圖像def show_linear(X_parm,Y_parm):# Create linear regression objectregr = linear_model.LinearRegression()#train modelregr.fit(X_parm,Y_parm)predict_outcome = regr.predict(predict_value)pred= {}pred['intercept'] = regr.intercept_pred['coefficient'] = regr.coef_pred['predicted_value'] = predict_outcomereturn predif __name__=="__main__":X,Y =get_data()pred_value = https://www.jianzixun.com/7result,R_Square = linear_model_main(X,Y,pred_value)print ("y={:.3}*x+{}".format(result['coefficient'][0],result['intercept']))print ("Predicted value:",result['predicted_value'])show_linear(X,Y)print("R_Square={ :.3 }".format(R_Square))

輸出：
y=2.0*x+20.0Predicted value: [34.]R_Square=0.826
▲圖9-3 例9-1程序運行結果
通過上面的分析得到一元線性回歸擬合圖像，如圖9-3所示。最終得到回歸方程為_y_=2_x_+20，同時繪制出了線性圖形，回歸系數為2.0，常數項為20.0 。當_x_=7時，預測得出_y_=34 。
2.3 檢驗、預測與控制1．平方和分解公式
2、回歸模型的顯著性檢驗
3．預測和控制
4．計算推導案例
在表9-2數據集下：
【例9－2.1】計算回歸模型中參數
輸入：

import pandas as pddata = https://www.jianzixun.com/pd.read_excel("data.xlsx")#here ,use pandas to read cvs file.data.columns=["X","Y"]#修改列名data["X_Square"],data["Y_Square"]=data['X']**2,data['Y']**2data["XY"]=data['X']*data['Y']data["pred_Y"]=2*data['X']+20data.loc['Row_sum'] =data.apply(lambda x: x.sum())print(data[["X","Y","XY","X_Square","Y_Square","pred_Y"]])

輸出：

XYX_SquareY_SquareXYpred_Y022044004024132596257526243016900120283534251156170304531259611553051140121160044042Row_sum3018020056421000180

接下來計算對應參數值。
【例9-2.2】計算回歸模型中參數
輸入：

data = https://www.jianzixun.com/pd.read_excel("data.xlsx")data.columns=["X","Y"]data["XY"]=data['X']*data['Y']print("mean=n{}".format(data.iloc[0:6][["X","Y","XY"]].mean()))print("Lxy={}".format(sum((data["X"]-5)*(data["Y"]-30))))print("Lxx={}".format(sum((data["X"]-5)**2)))print("Lyy={}".format(sum((data["Y"]-30)**2)))

輸出：
X5.000000Y30.000000XY166.666667dtype: float64Lxy=3850Lxx=675Lyy=22742
注：在執行例9-2.2代碼過程中，要重新執行程序，不要在例9-2.1基礎之上執行。
參考9.2.3節中第一部分的公式，結合例9-2.2，得到數據如下：
所以年利潤的95%的置信區間為[32?9.71，32+9.71]=[22.29人工智能計算器32 ， 41.71] 。
本文摘自《 3破冰人工智能：從入門到實戰》
《 3破冰人工智能：從入門到實戰》創新性地從數學建模競賽入手，深入淺出地講解了人工智能領域的相關知識。本書內容基于 3.6，從人工智能領域的數學出發，到在人工智能場景下的關鍵模塊；從網絡爬蟲到數據存儲，再到數據分析；從機器學習到深度學習，涉及自然語言處理、機器學習、深度學習、推薦系統和知識圖譜等。
此外，本書還提供了近140個代碼案例和大量圖表，全面系統地闡述了算法特性，個別案例算法來自于工作經驗總結，力求幫助讀者學以致用。
本文到此結束，希望對大家有所幫助。

继夫的玩弄H辣文的小说|女人与拘性猛交视频|精品欧美高清不卡高清|一起做亏亏的事情的视频|啦啦啦在线视频观看|望月直播下载ios版本|国产日韩欧美一区二区三区

如何從回歸分析到算法基礎？