地址拆分-Excel公式执行循环操作

发布于 2023-05-24 | 标签: excel | 8分钟 | 1833字数

一. 前言

问题来源于

=LEFT(P2,MIN(FIND({"省","市","区"}, P2&"省市区")))

被问及一个问题, find()中的大括号是什么意思.

这个, 很简单, 大括号是excel在表格公式实现数组的符号, 具体见Excel有趣函数系列-lookup | Lian (kyouichirou.github.io).

关键不在于此, 而是突然对于excel公式如何处理地址切割问题起了兴趣.

检索了一下必应, 并未发现相对可行的演示案例, 大部分的示例excel公式不是过于简陋, 就是各种函数层层叠叠, 令人望而生畏. 有没有简单易于理解的切割方式呢, 于是动手尝试一下.

阅读全文 »

线性回归 - 异常

发布于 2023-05-23 | 标签: spss 、 math | 21分钟 | 4295字数

一. 前言

在一元线性回归详解 | Lian (kyouichirou.github.io), 在学生化残差章节中, 部分提及了关于帽子矩阵的内容, 这里对该部分的内容进行扩充.

阅读全文 »

2022 Kaggle Data Science & ML Survey

发布于 2023-05-20 | 标签: other 、 machine learning | 2分钟 | 311字数

2022年 kaggle 数据科学 & 机器学习调查报告

阅读全文 »

常用矩阵特性摘要

发布于 2023-05-18 | 标签: numpy 、 matrix 、 math 、 priority | 54分钟 | 11472字数

阅读全文 »

Streamlit使用指南

发布于 2023-05-16 | 标签: web 、 streamlit 、 plotly 、 data visualization | 53分钟 | 10567字数

一. 前言

阅读全文 »

PCA&SVD-摘要

发布于 2023-05-15 | 标签: numpy 、 matrix 、 data preprocessing 、 matlab 、 math | 25分钟 | 4871字数

一. 前言

1.1 涉及矩阵基础

\text{单位矩阵:(一般使用I, E来表示)}\\ I= \begin{bmatrix} 1 & 0 & \cdots & 0\\ 0 & 1 & \cdots & 0\\ \vdots&\vdots & \ddots & \vdots\\ 0 & 0 & \cdots & 1 \end{bmatrix}\\\\ 正交矩阵: A^TA = I, 则称A为正交矩阵\\\\ 矩阵的转置:(A^T)^T = A\\ (A_1A_2..A_n)^T = A_n^T..A_2^TA_1^T\\\\ 对角矩阵:\\ A = \begin{bmatrix} a_{11} & & & \\ & a_{22} & & \\ & & a_{33}&\\ & & &a_{44} \end{bmatrix}\\ 对角矩阵的转置等于自身: A^T = A\\\\ 逆矩阵: AB = BA = I\\ A = B ^{-1}\\ B = A ^{-1}\\ (AB) ^{-1} = B^{-1}A^{-1}, A, B同阶, 可逆\\ 单位矩阵的逆矩阵是其本身.\\ 正交矩阵A的逆矩阵A^{-1} = A^T

阅读全文 »

Longley数据集-多重共线性问题与岭回归

发布于 2023-05-11 | 标签: spss 、 scipy 、 math 、 sklearn 、 priority | 65分钟 | 13287字数

一. 前言

在一元线性回归详解 | Lian (kyouichirou.github.io)中提及了多重共线性(Multicollinearity)的问题, 由于是一元线性回归, 并未对该问题做深入的探讨.

下面以Longley数据集为例, 分别以spss, python对相关问题展开讨论.

数据源见: https://www.itl.nist.gov/div898/strd/lls/data/LINKS/DATA/Longley.dat

阅读全文 »

Pandas周边-ydata-profiling(数据概览)

发布于 2023-05-05 | 标签: data visualization 、 pandas | 6分钟 | 1272字数

一. 前言

原名Pandas-profiling, 现在已经更换新的名称, ydata-profiling

文档见: https://ydata-profiling.ydata.ai/docs/master/index.html

pandas-profiling (文档还是老名称) primary goal is to provide a one-line Exploratory Data Analysis (EDA) experience in a consistent and fast solution. Like pandas df.describe() function, that is so handy, pandas-profiling delivers an extended analysis of a DataFrame while alllowing the data analysis to be exported in different formats such as html and json.

该库的目标在于提供类似于pandas的描述性统计的一站式数据概览(EDA)支持.

阅读全文 »

常用级数求和公式

发布于 2023-05-04 | 标签: math | 9分钟 | 1433字数

前言

阶乘和gamma函数关系密切.

\Gamma(z) = \int_0^{\infty}x^{z-1} * e ^{-x}\mathrm{d}x\\ 或者\\ \Gamma(z + 1) = \int_0^{\infty}x^z * e ^{-x}\mathrm{d}x\\ \\ \Gamma(z) = (z -1)!, \; z 为正整数

# 在python中适用sympy来求这个积分
>>> from sympy import *
>>> import numpy as np
>>> x = symbols('x')
>>> print(integrate(x**1 * exp(-x), (x, 0, np.inf)))
1
>>> print(integrate(x**2 * exp(-x), (x, 0, np.inf)))
2
>>> print(integrate(x**3 * exp(-x), (x, 0, np.inf)))
6

阅读全文 »

常用统计学概要

发布于 2023-05-04 | 标签: spss 、 statistics 、 priority | 109分钟 | 25279字数

本就存在大量相当晦涩的概念, 翻译和各种理解(符号使用)上的混乱, 让统计学变得更为复杂.

大学时我一直觉得统计学很难还差点挂科.

工作以后才发现难的不是统计学而是我们的教材写得不好. 比起高等数学统计概念其实容易理解多了.

以下内容主要整合自: 多种(国内/国外)统计学教材(或其他统计学相关书籍), Wikipedia, stackexchange, 知乎, 百度百科等...以及其他相对权威的统计学站点和spss相关内容站点.

对于不确定的信息或者难以理解的部分, 一般采用英文版本的内容.

相关内容的描述, 计算等, 优先采用SPSS的解决方案.

IBM SPSS Statistics 26 Documentation.

阅读全文 »