Pandas Dataframe 語法

import pandas as pd
import numpy as np

pandas dataframe API

        pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

# attribute:(.即可)
'''DataFrame.size    # 資料總數
            .shape   # 幾乘幾的dataframe
            .values  # 把 dataframe 轉成 2維 array
            .ndim    # 維度
            .T       # 轉置
            .dtypes  # data types（看是整數還浮點數）
            .axes    # 查看 index 跟 columns 名稱
            .ix      # Lable 在該index 對應的資料，可以放index數字也可以放label文字 
            .loc     # Lable 在該index 對應的資料 (只能放label文字 )
            []       # 第一個中括號，看columns的資料內容 ，後面補上的第二個括號是該columns對應的label
            .insert()# 插入：.insert(要插在第幾個column位置，安插的名稱，安插資訊內容)
'''            
df = pd.DataFrame(np.random.rand(4,3),index=['a','b','c','d'],columns =['A','B','C'])
print df.size
print df.shape
print df.values
print df.ndim
print df.dtypes
print df.axes
print df.ix[0]
print df.ix['a']
print df.loc['a']
print df['A']['a']

# method:(.小括號)
df = pd.DataFrame(np.random.randn(4,3),index=['a','b','c','d'],columns =['A','B','C'])
df2= pd.DataFrame(np.random.randn(4,1),index=['w','x','y','z'],columns =['A'])
'''
DataFrame
        <合併刪除>
        .add(other, axis='columns') # data相加,但是一定要columns名稱相同
        .append(other, ignore_index=False )  # 新增資料合併用,雷同merge
        .merge(right,how='inner')   # 新增資料合併用 找相同columns然後從下面補上去,預設為交集（inner,可改為outer聯集
        .join(other,how='left')     # 新增資料合併用,left：以原資料為主，other為新增，right則相反）
        .drop(labels)               # 剔除label資料 （刪除columns： del df[] 沒有.點)

        <數值計算>
        .describe()                 # 幫忙計算資料的數量, mean, std,cv...等等
        .abs()                      # 絕對值
        .idxmax(axis)               # 比較大小（依照axis ：0就是ABC比,順序：橫向 1就是abcd比，順序：直立）
        .idxmin(axis)
        .mean(axis)                 # axis=0  A平均B平均C平均;axis=1 a平均b平均c平均d平均
        .min(axis)                  # axis=0  找A最小B最小C最小;axis=1 找a最小b最小c最小d最小
        .round([decimals])          # 取小數點幾位
        .std(axis=None)             # 計算std ,依照指定的axis =0 或1
        .sum(axis= None)            # 計算sum ,依照指定的axis =0 或1

        <獲取,查看資料>
        .get_values()               # 等同於DataFrame.values
        .head(n)                    # 只列出前n列的資料 沒寫就是前五列
        .keys()                     # 只查看columns名稱

        <修改欄位>
        .reset_index(drop=True)     # 如果今天index的lable順序因為合併變成雜亂,可以用這個重新從0開始排序(要寫true不然原先的index會留著）       
        .rename(index={ },columns= { }) # label與columns命名修改
        .swapaxes(axes1,axes2)      # column ,index 互換
        .transpose()                # column ,index 互換

        <修改內容>
        .df.shift(periods=1,axis=0) # shift,perios看要移動幾格, axis 看是移動直向還是橫向
        .set_value(index,col,value) # 設定資料內容, index,column都要是label value為要設定的資訊
        .sort_values(by=[],axis=0)  # axis＝0 依照ABC欄位去做abcd排序 by要填入column的label即A,B,C ,axis=1則相反      .  

        <存檔格式>
        .to_csv('.... .csv')        # 轉成csv檔 改路徑就直接把路徑寫出最後補上.csv即可 (用pd.read_csv()讀檔案)
        .to_pickle('.... .pickle')  # 轉成pickle檔 改路徑就直接把路徑寫出最後補上.pickle即可
        .to_json('.... .json')      # 轉成json string檔 改路徑就直接把路徑寫出最後補上.json即可

        <更新>
        .update(other[])            # 更新other[] 中括號裡面上的是要更新column的lable。更新要確認index是否相同 否則更新無效     
'''     
print df
print df2
print df.append(df2,ignore_index =True)
print df.describe()
print df.drop('a')
print df.get_values()
print df.head(2)
print df.idxmax(0)
print df.idxmax(1)

#######移動shift 且新增資訊方式：
df3 =df.shift(axis=1)
print df3
val =[10,20,30,40]
label= ['a','b','c','d']     
for index,i in enumerate (val):
    df3 =df3.set_value(index =label[index],col='A',value=i)
print df3
########
print df.sort_values(by=['a','b','c','d'],axis=1)

pandas, series 其他語法

# dot 用法 ： 矩陣相乘
s1 = pd.Series(np.arange(1,5)) 
s1.dot(s1) 

# series- dictionary用法：
d ={'one':pd.Series([1,2,3],index=['a','b','c']),
    'two':pd.Series([4,5,6],index=['d','e','f'])  }
print (d['one'])
df= pd.DataFrame(d)
print
print (df)
print
print(pd.DataFrame(d,index=['b','c','f']))

# list-dictionary用法：
t= [{'a':10, 'b':20},{'a':5,'b':300,'c':1}]
pd.DataFrame(t)

# DataFrame.from_item 用dictonary來幫dataframe的column命名：
df= pd.DataFrame.from_items([('a',[1,2,3]),('b',[4,5,6])])
print(df)
print
print(df.T)

# DataFrame.from_item 用dictonary方式來命名, 但加了orient就變成轉置只是強制要幫column命名：
df= pd.DataFrame.from_items([('a',[1,2,3]),('b',[4,5,6]),('c',[7,8,9]),('d',[10,11,12])],
                            orient='index',columns=['one','two','three'])
df

# 可以做運算 也可以用flag做布林值判定
df['three'] =df['one']*df['two']
df['flag']= df['one']>2
df

# 刪除整個columns就 del （刪除整個index 用drop）
del df['three']
df

# 新增欄位直接寫要的欄位名稱 ,不過index內容全部統一（除非用condat合併才可以放入其他資訊）
df['date'] = '2017-03'
df

# 插入：insert(要插在第幾個column位置，安插的名稱，安插資訊內容)
df.insert(4,'james gordan',df['one'])
df

# 從欄位找資料：
print (df['one'])
print 
# 用loc,從 lable找資料 (也可以用iloc用index找資料):
print (df.loc['a']) # Same as : df.iloc[0]

# 切片用法：在df是切片用法，即切片起始0在空的lable那裏，所以a是1, 1:3 取兩個，頭不算 所以取2,3
df[1:3] # 與 d[:3]：從頭開始取到第3個不同含義

pandas concat 合併語法

pandas.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None)

# concat 兩個dataframe做合併 依照aixs軸設定 ,是新創的記憶體位置
df = pd.DataFrame(np.random.randn(4,3),index=['a','b','c','d'],columns =['A','B','C'])
df2= pd.DataFrame(np.random.randn(4,1),index=['w','x','y','z'],columns =['D'])
pd.concat([df,df2],ignore_index='True',axis=0)

這封郵件來自 Evernote。Evernote 是您專屬的工作空間，免費下載 Evernote

物理人的程式路

Blog Archive

2017年3月13日星期一

Pandas Dataframe 語法

1 則留言:

Search This Blog

Labels

Like Us

Popular Posts

About Me

Contact

Get in touch with me

Adress/Street

Phone number

Website

物理人的程式路

Blog Archive

2017年3月13日 星期一

Pandas Dataframe 語法

1 則留言:

Search This Blog

Labels

Like Us

Popular Posts

About Me

Contact

Get in touch with me

Adress/Street

Phone number

Website

2017年3月13日星期一