地址拆分-Excel公式执行循环操作

一. 前言

问题来源于

=LEFT(P2,MIN(FIND({"省","市","区"}, P2&"省市区")))

被问及一个问题, find()中的大括号是什么意思.

这个, 很简单, 大括号是excel在表格公式实现数组的符号, 具体见Excel有趣函数系列-lookup | Lian (kyouichirou.github.io).

关键不在于此, 而是突然对于excel公式如何处理地址切割问题起了兴趣.

检索了一下必应, 并未发现相对可行的演示案例, 大部分的示例excel公式不是过于简陋, 就是各种函数层层叠叠, 令人望而生畏. 有没有简单易于理解的切割方式呢, 于是动手尝试一下.

阅读全文 »

PCA&SVD-摘要

一. 前言

1.1 涉及矩阵基础

单位矩阵:(一般使用I, E来表示)I=[100010001]:ATA=I,A:(AT)T=A(A1A2..An)T=AnT..A2TA1T:A=[a11a22a33a44]:AT=A:AB=BA=IA=B1B=A1(AB)1=B1A1,A,B,.AA1=AT\text{单位矩阵:(一般使用I, E来表示)}\\ I= \begin{bmatrix} 1 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0\\ \vdots&\vdots & \ddots & \vdots\\ 0 & 0 & \cdots & 1 \end{bmatrix}\\\\ 正交矩阵: A^TA = I, 则称A为正交矩阵\\\\ 矩阵的转置:(A^T)^T = A\\ (A_1A_2..A_n)^T = A_n^T..A_2^TA_1^T\\\\ 对角矩阵:\\ A = \begin{bmatrix} a_{11} & & & \\ & a_{22} & & \\ & & a_{33}&\\ & & &a_{44} \end{bmatrix}\\ 对角矩阵的转置等于自身: A^T = A\\\\ 逆矩阵: AB = BA = I\\ A = B ^{-1}\\ B = A ^{-1}\\ (AB) ^{-1} = B^{-1}A^{-1}, A, B同阶, 可逆\\ 单位矩阵的逆矩阵是其本身.\\ 正交矩阵A的逆矩阵A^{-1} = A^T

阅读全文 »

Longley数据集-多重共线性问题与岭回归

一. 前言

一元线性回归详解 | Lian (kyouichirou.github.io)中提及了多重共线性(Multicollinearity)的问题, 由于是一元线性回归, 并未对该问题做深入的探讨.

下面以Longley数据集为例, 分别以spss, python对相关问题展开讨论.

数据源见: https://www.itl.nist.gov/div898/strd/lls/data/LINKS/DATA/Longley.dat

阅读全文 »

Pandas周边-ydata-profiling(数据概览)

一. 前言

原名Pandas-profiling, 现在已经更换新的名称, ydata-profiling

文档见: https://ydata-profiling.ydata.ai/docs/master/index.html

pandas-profiling (文档还是老名称) primary goal is to provide a one-line Exploratory Data Analysis (EDA) experience in a consistent and fast solution. Like pandas df.describe() function, that is so handy, pandas-profiling delivers an extended analysis of a DataFrame while alllowing the data analysis to be exported in different formats such as html and json.

该库的目标在于提供类似于pandas的描述性统计的一站式数据概览(EDA)支持.

阅读全文 »

常用级数求和公式

前言

阶乘和gamma函数关系密切.

Γ(z)=0xz1exdxΓ(z+1)=0xzexdxΓ(z)=(z1)!,  z\Gamma(z) = \int_0^{\infty}x^{z-1} * e ^{-x}\mathrm{d}x\\ 或者\\ \Gamma(z + 1) = \int_0^{\infty}x^z * e ^{-x}\mathrm{d}x\\ \\ \Gamma(z) = (z -1)!, \; z 为正整数

# 在python中适用sympy来求这个积分
>>> from sympy import *
>>> import numpy as np
>>> x = symbols('x')
>>> print(integrate(x**1 * exp(-x), (x, 0, np.inf)))
1
>>> print(integrate(x**2 * exp(-x), (x, 0, np.inf)))
2
>>> print(integrate(x**3 * exp(-x), (x, 0, np.inf)))
6
阅读全文 »

常用统计学概要

img

本就存在大量相当晦涩的概念, 翻译和各种理解(符号使用)上的混乱, 让统计学变得更为复杂.

p9KcwLV.png

大学时 我一直觉得统计学很难 还差点挂科.

工作以后才发现 难的不是统计学 而是我们的教材写得不好. 比起高等数学 统计概念其实容易理解多了.

以下内容主要整合自: 多种(国内/国外)统计学教材(或其他统计学相关书籍), Wikipedia, stackexchange, 知乎, 百度百科等...以及其他相对权威的统计学站点和spss相关内容站点.

对于不确定的信息或者难以理解的部分, 一般采用英文版本的内容.

相关内容的描述, 计算等, 优先采用SPSS的解决方案.

IBM SPSS Statistics 26 Documentation.

阅读全文 »