站长信息
jeffery.xu
jeffery.xu

软件工程师

欢迎访问我的个人笔记网站!我是一名热爱技术的开发者,专注于Web开发和技术分享。

811495111@qq.com
18521510875
筛选

个人笔记

3.1.1
人工智能学习

3.1.1-1 智能音箱用户行为分析报告(含 M1–M3

一、用户使用习惯(M1

使用最频繁的三个功能为: 调整音量、 查询新闻、查天气

二、功能使用频率分析(M2

• 最受欢迎的功能: 调整音量

• 使用频率较低的功能: 播放音乐、控制家居

三、响应时间分析(M3

• 响应时间最长功能: 控制家居

• 响应时间适中功能: 查询知识 调整音量 提醒事项

• 响应时间最短功能: 查询新闻

 

3.1.1-2 智能音箱优化建议与方案(M4

优化方向一:提升语音识别准确率

解决方案: 引入多轮语义理解机制,结合上下文进行意图识别,减少误触发。

优化方向二:提升响应速度

解决方案: 对高频功能启用预加载和缓存机制,提升系统整体反应效率。

优化方向三:增强功能可见性与引导

解决方案: 通过语音提示或App通知向用户推荐冷门但实用功能,提高功能覆盖率。

2.2.5
人工智能学习

import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeRegressor

import pickle

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# 加载数据集

df = pd.read_csv('fitness analysis.csv')

    # 显示前五行数据

print(df.head())

    # 选择相关特征进行建模

X = df[['Your gender ', 'How important is exercise to you ?', 'How healthy do you consider yourself?']]

X = pd.get_dummies(X)  # 将分类变量转为数值变量

    # 设为目标变量

y = df['daily_steps']  # 替换为实际的目标变量名称

    # 将数据集划分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # 创建并训练决策树回归模型

dt_model = DecisionTreeRegressor(random_state=42)

dt_model.fit(X_train, y_train)

    # 保存训练好的模型

with open('2.2.5_model.pkl', 'wb') as model_file:

     pickle.dump(dt_model, model_file)

    # 进行预测

y_pred = dt_model.predict(X_test)

    # 将结果保存到文本文件中

results = pd.DataFrame({'实际值': y_test, '预测值': y_pred})

results_filename = '2.2.5_results.txt'

results.to_csv(results_filename, index=False, sep='\t')

    # 将测试结果保存到报告文件中

report_filename = '2.2.5_report.txt'

with open(report_filename, 'w') as f:

     f.write(f'均方误差: {mean_squared_error(y_test, y_pred)}\n')

     f.write(f'平均绝对误差: {mean_absolute_error(y_test, y_pred)}\n')

     f.write(f'决定系数: {r2_score(y_test, y_pred)}\n')

2.2.4
人工智能学习

代码:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import joblib
from xgboost import XGBRegressor

    #
加载数据集
data = pd.read_excel('
大学生低碳生活行为的影响因素数据集.xlsx')
    #
显示数据集的前五行
print(data.head())
    #
删除不必要的列并处理分类变量
data_cleaned = data.drop(columns=['
序号', '所用时间'])  # 删除不必要的列
data_cleaned = pd.get_dummies(data_cleaned, drop_first=True)  #
将分类变量转换为哑变量/指示变量
#
定义目标变量和特征
target = '5.
您进行过绿色低碳的相关生活方式吗?'  # 确保这是目标变量
        #
定义自变量因变量
X = data_cleaned.drop(columns=[target])    

y = data_cleaned[target]
    #
将数据拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    #
训练线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)
    #
保存训练好的模型
model_filename = '2.2.4_model.pkl'
joblib.dump(model, model_filename)
    #
进行预测
y_pred = model.predict(X_test)
    #
将结果保存到文本文件中
results = pd.DataFrame({'
实际值': y_test, '预测值': y_pred})
results_filename = '2.2.4_results.txt'
results.to_csv(results_filename, index=False, sep='\t')  #
使用制表符分隔值保存到文本文件
    #
将测试结果保存到报告文件中
report_filename = '2.2.4_report.txt'
with open(report_filename, 'w') as f:
      f.write(f'
均方误差: {mean_squared_error(y_test, y_pred)}\n')
      f.write(f'
决定系数: {r2_score(y_test, y_pred)}\n')
    #
分析并纠正错误(示例:使用XGBoost
    #
初始化XGBoost模型(设定树的数量为1000,学习率为0.05,每棵树的最大深度为5,)
xgb_model = XGBRegressor(
      n_estimators=1000,  #
增加树的数量
      learning_rate =0.05,  #
降低学习率
      max_depth=5,  #
调整树的深度
      subsample=0.8,  #
调整样本采样比例
      colsample_bytree=0.8  #
调整特征采样比例
    )
 xgb_model.fit(X_train, y_train)
    #
使用XGBoost模型进行预测
 y_pred_xg = xgb_model.predict(X_test)
    #
XGBoost结果保存到文本文件中
 results_xg_filename = '2.2.4_results_xg.txt'
 results_xg = pd.DataFrame({'
实际值': y_test, '预测值': y_pred_xg})
 results_xg.to_csv(results_xg_filename, index=False, sep='\t')  #
使用制表符分隔值保存到文本文件
    #
XGBoost测试结果保存到报告文件中
 report_filename_xgb = '2.2.4_report_xgb.txt'
 with open(report_filename_xgb, 'w') as f:
      f.write(f'
均方误差: {mean_squared_error(y_test, y_pred_xg)}\n')
      f.write(f'
决定系数: {r2_score(y_test, y_pred_xg)}\n')

4.2.5
人工智能学习

智能化数据标注在文化遗产数字化保护中的应用指导方案

1. 数据标注工具与方法

l  图像标注:

Ø  使用Label StudioLabelMeCVAT等标注工具,为文化遗产图像添加边界框、多边形、点、线段等标注。

Ø  对于复杂的文物细节,可以使用语义分割或实例分割技术,精细到每个物体的每一部分。

l  三维模型标注:

Ø  采用MeshLabBlender等软件,对3D模型进行顶点、面、体素级别的标注。

Ø  实现对模型内部结构和外部特征的全面标注。

l  属性标签:

Ø  文物的材料、风格、时代、作者、位置等元数据,使用CSVJSON等格式记录,并关联至相应的图像或模型。

Ø  可以使用数据库管理系统(如MySQLMongoDB)来存储和管理这些信息。

2. 智能化辅助标注

l  深度学习模型:训练用于图像分割与目标检测的模型,如Mask R-CNNU-Net等,用于自动识别和标记文物的特定特征。

l  模型训练数据集:构建一个包含大量已标注文化遗产图像的数据集,用于模型训练和验证。

l  模型迭代与优化:定期更新模型,引入新发现的文物类型和特征,提升识别精度。

3. 跨学科团队协作

l  组建由考古学家、艺术史家、计算机视觉专家、AI工程师组成的多学科协同工作团队,共同制定标注标准和工作流程。

l  定期举行会议,讨论标注过程中的问题,调整标注策略。

4. 数据安全与隐私保护

l  使用加密协议(如HTTPSSSL存储和传输数据,确保文化遗产信息不被非法获取。

l  遵守相关法律法规,特别是涉及文化遗产的所有权和使用权的规定。

5. 用户体验与公众教育

l  开发Web应用或移动应用程序,允许用户在线浏览、搜索和学习文化遗产的数字化资料。

l  利用虚拟现实(VR)或增强现实(AR技术,为用户提供沉浸式文化遗产体验,增加教育和娱乐价值。

6. 技术融合与未来展望

l  探索区块链技术的应用,为文化遗产的数字档案提供不可篡改的记录,增强其权威性和可信度。

l  结合AI和物联网技术,监测和预警文化遗产的物理状态变化,及时采取保护措施。

2.2.3
人工智能学习

代码:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
import pickle
from sklearn.metrics import mean_squared_error, r2_score
import xgboost as xgb
    #
加载数据集
df = pd.read_csv('fitness analysis.csv')
    #
显示前五行数据
print(df.head())
    #
去除所有字符串字段的前后空格
df = df.applymap(lambda x: x.strip() if isinstance(x, str) else x)
    #
检查和清理列名
df.columns = df.columns.str.strip()
    #
选择相关特征进行建模
X = df[['Your gender', 'How important is exercise to you ?', 'How healthy do you consider yourself?']]
X = pd.get_dummies(X)  #
将分类变量转为数值变量
    #
将年龄段转为数值变量
y = df['Your age'].apply(lambda x: int(x.split(' ')[0]))  #
假设年龄段为整数
    #
将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    #
创建并训练随机森林回归模型
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
    #
保存训练好的模型
with open('2.2.3_model.pkl', 'wb') as model_file:
    pickle.dump(rf_model, model_file)
    #
进行结果预测
y_pred = rf_model.predict(X_test)
results_df = pd.DataFrame(y_pred, columns=['
预测结果'])
results_df.to_csv('2.2.3_results.txt', index=False)
    #
使用测试工具对模型进行测试,并记录测试结果
train_score = rf_model.score(X_train, y_train)
test_score = rf_model.score(X_test, y_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
with open('2.2.3_report.txt', 'w') as report_file:
     report_file.write(f'
训练集得分: {train_score}\n')
     report_file.write(f'
测试集得分: {test_score}\n')
     report_file.write(f'
均方误差(MSE): {mse}\n')
     report_file.write(f'
决定系数(R^2): {r2}\n')
    #
运用工具分析算法中错误案例产生的原因并进行纠正
    #
初始化XGBoost回归模型(构建100棵树)
xgb_model = xgb.XGBRegressor(n_estimators=100, random_state=42)
xgb_model.fit(X_train, y_train)
y_pred_xgb = xgb_model.predict(X_test)
results_df_xgb = pd.DataFrame(y_pred_xgb, columns=['
预测结果'])
results_df_xgb.to_csv('2.2.3_results_xgb.txt', index=False)
with open('2.2.3_report_xgb.txt', 'w') as xgb_report_file:
     xgb_report_file.write(f'XGBoost
训练集得分: {xgb_model.score(X_train, y_train)}\n')
     xgb_report_file.write(f'XGBoost
测试集得分: {xgb_model.score(X_test, y_test)}\n')
     xgb_report_file.write(f'XGBoost
均方误差(MSE): {mean_squared_error(y_test, y_pred_xgb)}\n')
     xgb_report_file.write(f'XGBoost
决定系数(R^2): {r2_score(y_test, y_pred_xgb)}\n')

2.2.2
人工智能学习

代码:

import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.preprocessing import StandardScaler

from sklearn.pipeline import Pipeline

import pickle

from sklearn.ensemble import RandomForestRegressor

# 加载数据集

df = pd.read_csv('auto-mpg.csv')

# 显示前五行数据

print(df.head())

# 处理缺失值

# 'horsepower' 列中的所有值转换为数值类型

df['horsepower'] = pd.to_numeric(df['horsepower'], errors='coerce')

# 删除包含缺失值的行

df = df.dropna()

# 选择相关特征进行建模

X = df[['cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'model year', 'origin']]

y = df['mpg']

# 将数据集划分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建包含标准化和线性回归的管道

pipeline = Pipeline([('scaler', StandardScaler()),('linreg', LinearRegression())])

# 训练模型

pipeline.fit(X_train, y_train)

# 保存训练好的模型

with open('2.2.2_model.pkl', 'wb') as model_file:

pickle.dump(pipeline, model_file)

# 预测并保存结果

y_pred = pipeline.predict(X_test)

results_df = pd.DataFrame(y_pred, columns=['预测结果'])

results_df.to_csv('2.2.2_results.txt', index=False)

# 测试模型

with open('2.2.2_report.txt', 'w') as results_file:

results_file.write(f'训练集得分: {pipeline.score(X_train, y_train)}\n')

    results_file.write(f'测试集得分: {pipeline.score(X_test, y_test)}\n')

# 训练一个随机森林回归模型,创建的决策树的数量为100

rf_model = RandomForestRegressor(n_estimators=100, random_state=42)

rf_model.fit(X_train, y_train)

# 使用随机森林模型进行预测

y_pred_rf = rf_model.predict(X_test)

# 保存新的结果

results_rf_df = pd.DataFrame(y_pred_rf, columns=['预测结果'])

results_rf_df.to_csv('2.2.2_results_rf.txt', index=False)

# 测试模型并保存得分

with open('2.2.2_report_rf.txt', 'w') as results_rf_file:

results_rf_file.write(f'训练集得分: {rf_model.score(X_train, y_train)}\n')

results_rf_file.write(f'测试集得分: {rf_model.score(X_test, y_test)}\n')

2.2.1
人工智能学习

(1) 代码:

import pandas as pd

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

import pickle

from sklearn.metrics import classification_report

from imblearn.over_sampling import SMOTE

 

# 加载数据

data = pd.read_csv('finance数据集.csv')

    # 显示前五行的数据

print(data.head())

    # 选择自变量和因变量

X = data.drop(['SeriousDlqin2yrs', 'Unnamed: 0'], axis=1)

y = data['SeriousDlqin2yrs']

    # 分割训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # 训练Logistic回归模型

model = LogisticRegression(max_iter=1000)

model.fit(X_train, y_train)

    # 保存模型

with open('2.2.1_model.pkl', 'wb') as file:

     pickle.dump(model, file)

    # 预测并保存结果

y_pred = model.predict(X_test)

pd.DataFrame(y_pred, columns=['预测结果']).to_csv('2.2.1_results.txt', index=False)

    # 生成测试报告

report = classification_report(y_test, y_pred, zero_division=1)

with open('2.2.1_report.txt', 'w') as file:

     file.write(report)

    # 分析测试结果

accuracy = (y_test == y_pred).mean()

print(f"模型准确率: {accuracy:.2f}")

    # 处理数据不平衡

 smote = SMOTE(random_state=42)

 X_resampled, y_resampled = smote.fit_resample(X_train, y_train)

    # 重新训练模型

 model.fit(X_resampled, y_resampled)

    # 重新预测

 y_pred_resampled = model.predict(X_test)

    # 保存新结果

pd.DataFrame(y_pred_resampled, columns=['预测结果']).to_csv('2.2.1_results_xg.txt', index=False)

    # 生成新的测试报告

report_resampled = classification_report(y_test, y_pred_resampled, zero_division=1)

with open('2.2.1_report_xg.txt', 'w') as file:

     file.write(report_resampled)

    # 分析新的测试结果

accuracy_resampled = (y_test == y_pred_resampled).mean()

print(f"重新采样后的模型准确率: {accuracy_resampled:.2f}")

2.1.5健康与营养咨询数据预处理与数据规范设计
人工智能学习

代码:

import pandas as pd
    #
加载数据集
data = pd.read_csv('
健康咨询客户数据集.csv')
    #
查看表的数据类型和表结构
print(data.info())
    #
显示每一列的空缺值数量
print(data.isnull().sum())
    #
删除含有缺失值的行
data_cleaned = data.dropna()
    #
转换 'Your age' 列的数据类型为整数类型,并处理异常值
data_cleaned.loc[:, 'Your age'] = pd.to_numeric(data_cleaned['Your age'], errors='coerce')
data_cleaned = data_cleaned.dropna(subset=['Your age'])
data_cleaned = data_cleaned[data_cleaned['Your age'] >= 0]
data_cleaned.loc[:, 'Your age'] = data_cleaned['Your age'].astype(int)
print(data_cleaned['Your age'].dtype)
    #
检查和删除重复值
duplicates_removed = data_cleaned.duplicated().sum()
data_cleaned = data_cleaned.drop_duplicates()
print(f"Removed {duplicates_removed} duplicate rows")
from sklearn.preprocessing import LabelEncoder
    #
归一化 'How do you describe your current level of fitness ?'
label_encoder = LabelEncoder()
data_cleaned['How do you describe your current level of fitness ?'] = label_encoder.fit_transform(data_cleaned['How do you describe your current level of fitness ?'])
print(data_cleaned['How do you describe your current level of fitness ?'].unique())
from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt
    #
去掉列名中的空格
data.columns = data.columns.str.strip()
    #
显示数据集的列名
print(data.columns)
    #
删除包含缺失值的行
data_cleaned = data.dropna(subset=['How often do you exercise?'])
    #
统计不同健身频率的分布情况
exercise_frequency_counts = data_cleaned['How often do you exercise?'].value_counts()
    #
绘制饼图
plt.figure(figsize=(10, 6))
exercise_frequency_counts.plot.pie(autopct='%1.1f%%', startangle=90, colors=plt.cm.Paired.colors)
plt.title('Distribution of Exercise Frequency')
plt.ylabel('')
plt.show()
import pandas as pd
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
    #
填充缺失值
data_filled = data.apply(lambda x: x.fillna(x.mode()[0]))
    #
划分数据
train_data, test_data = train_test_split(data_filled, test_size=0.2, random_state=42)
    #
保存数据
cleaned_file_path = '2.1.5_cleaned_data.csv'
data_filled.to_csv(cleaned_file_path, index=False)

2.1.4
人工智能学习

代码:

import pandas as pd

#加载数据集并指定编码为gbk

data = pd.read_csv('medical_data.csv', encoding='gbk')

# 查看数据类型

print(data.dtypes)

# 查看表结构

print(data.info())

# 显示每一列的空缺值数量

print(data.isnull().sum())

# 规范日期格式

data['就诊日期'] = pd.to_datetime(data['就诊日期'])

data['诊断日期'] = pd.to_datetime(data['诊断日期'])

# 重命名列

data.rename(columns={'病人ID': '患者ID'}, inplace=True)

# 查看修改后的表结构
print(data.head())
from datetime import datetime
#
增加诊断延迟和病程
data['
诊断延迟'] = (data['诊断日期'] - data['就诊日期']).dt.days
data['
病程'] = (datetime(2024, 9, 1) - data['诊断日期']).dt.days
#
删除不合理的数据
data = data[(data['
诊断延迟'] >= 0) & (data['年龄'] > 0) & (data['年龄'] < 120)]
#
查看修改后的数据
print(data.describe())
#
删除重复值并记录删除的行数
initial_rows = data.shape[0]
data.drop_duplicates(inplace=True)
deleted_rows = initial_rows - data.shape[0]
print(f'
删除的重复行数: {deleted_rows}')
from sklearn.preprocessing import MinMaxScaler
#
对需要归一化的列进行处理
scaler = MinMaxScaler()
columns_to_normalize = ['
年龄', '体重', '身高']
data[columns_to_normalize] = scaler.fit_transform(data[columns_to_normalize])
#
查看归一化后的数据
print(data.head())
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
#
统计治疗结果分布
treatment_outcome_distribution = data.groupby('
疾病类型')['治疗结果'].value_counts().unstack()
#
设置中文字体
#font_path = 'C:/Windows/Fonts/simhei.ttf'  #
根据你的系统调整字体路径
font_path = '/System/Library/Fonts/Hiragino Sans GB.ttc'  #
根据你的系统调整字体路径
my_font = fm.FontProperties(fname=font_path)
#
绘制柱状图
treatment_outcome_distribution.plot(kind='bar', stacked=True)
plt.title('
不同疾病类型的治疗结果分布', fontproperties=my_font)
plt.xlabel('
疾病类型', fontproperties=my_font)
plt.ylabel('
治疗结果数量', fontproperties=my_font)
plt.xticks(fontproperties=my_font)  #
设置x轴刻度标签的字体
plt.yticks(fontproperties=my_font)  #
设置y轴刻度标签的字体
plt.legend(prop=my_font)  #
设置图例字体
plt.show()
#
绘制散点图
plt.scatter(data['
年龄'], data['疾病严重程度'])
plt.title('
年龄和疾病严重程度的关系', fontproperties=my_font)
plt.xlabel('
年龄', fontproperties=my_font)
plt.ylabel('
疾病严重程度', fontproperties=my_font)
plt.xticks(fontproperties=my_font)  #
设置x轴刻度标签的字体
plt.yticks(fontproperties=my_font)  #
设置y轴刻度标签的字体
plt.legend(prop=my_font)  #
设置图例字体
plt.show()
#
保存数据
output_path = '2.1.4_cleaned_data.csv'
data.to_csv(output_path, index=False)

2.1.3信用评分模型数据清洗和标注流程设计
人工智能学习

代码:

import pandas as pd

# Load the data

data = pd.read_csv('finance数据集.csv’)

# 显示前五行的数据

print(data.head())

import matplotlib.pyplot as plt

import seaborn as sns

# 设置图像尺寸

plt.figure(figsize=(12, 8))

# 识别数值列用于箱线图

numeric_cols = data.select_dtypes(include=['float64', 'int64']).columns

# 创建箱线图

for i, col in enumerate(numeric_cols, 1):

plt.subplot(3, 4, i)

sns.boxplot(x=data[col])

plt.title(col)

plt.tight_layout()

plt.show()

# 使用IQR处理异常值

Q1 = data[numeric_cols].quantile(0.25)

Q3 = data[numeric_cols].quantile(0.75)

IQR = Q3 - Q1

# 移除异常值

data_cleaned = data[

~((data[numeric_cols] < (Q1 - 1.5 * IQR)) | (data[numeric_cols] > (Q3 + 1.5 * IQR))).any(axis=1)]

# 检查重复值

duplicates = data_cleaned.duplicated()

num_duplicates = duplicates.sum()

data_cleaned = data_cleaned[~duplicates]

print(f'删除的重复行数: {num_duplicates}')

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

data_cleaned[numeric_cols] = scaler.fit_transform(data_cleaned[numeric_cols])

# SeriousDlqin2yrs设为目标变量

target_variable = 'SeriousDlqin2yrs'

from sklearn.model_selection import train_test_split

# 定义特征和目标

X = data_cleaned.drop(columns=['SeriousDlqin2yrs','Unnamed: 0'])

y = data_cleaned[target_variable]

# 划分数据

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 显示划分后的数据形状

print(f'训练数据形状: {X_train.shape}')

print(f'测试数据形状: {X_test.shape}')

# 保存清洗后的数据到CSV

cleaned_file_path = '2.1.3_cleaned_data.csv'

data_cleaned.to_csv(cleaned_file_path, index=False)