Day26 复习日-智慧文博士

@浙大疏锦行

kaggle参与比赛注意事项：

仅可使用官方提供的数据集，在平台内完成数据预处理且不得修改数据集结构，提交文件需为仅含指定列的 CSV 格式，遵守每日提交次数限制；代码需使用平台支持的库、包含完整可复现流程且为原创，禁止抄袭或依赖外部缓存、已训练模型权重，个人参赛不可与他人协作共享代码或结果，同时需确保提交文件大小符合限制，模型训练目标需与竞赛评估指标一致。

参与比赛代码：

# 1. 导入必要库 import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier from sklearn.impute import SimpleImputer from sklearn.preprocessing import OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.metrics import accuracy_score # 2. 加载数据集 train_data = pd.read_csv('/kaggle/input/titanic/train.csv') test_data = pd.read_csv('/kaggle/input/titanic/test.csv') submission_template = pd.read_csv('/kaggle/input/titanic/gender_submission.csv') # 3. 分离特征与标签（训练集） X = train_data.drop(['Survived', 'PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1) # 剔除无关特征 y = train_data['Survived'] test_passenger_ids = test_data['PassengerId'] # 保存测试集ID用于提交 X_test = test_data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1) # 测试集特征处理 # 4. 定义预处理流程（处理缺失值+编码分类特征） # 分类特征：Sex, Embarked；数值特征：Pclass, Age, SibSp, Parch, Fare categorical_features = ['Sex', 'Embarked'] numerical_features = ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare'] # 数值特征预处理：用中位数填充缺失值 numerical_transformer = SimpleImputer(strategy='median') # 分类特征预处理：用最频繁值填充缺失值+独热编码 categorical_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='most_frequent')), ('onehot', OneHotEncoder(handle_unknown='ignore')) # 忽略测试集未出现的分类值 ]) # 整合预处理流程 preprocessor = ColumnTransformer( transformers=[ ('num', numerical_transformer, numerical_features), ('cat', categorical_transformer, categorical_features) ]) # 5. 构建模型管道（预处理+训练） model = Pipeline(steps=[ ('preprocessor', preprocessor), ('classifier', RandomForestClassifier(n_estimators=100, random_state=42)) # 随机森林模型 ]) # 6. 训练模型（可拆分验证集评估效果） X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42) model.fit(X_train, y_train) # 验证集评估（可选，用于优化模型） y_val_pred = model.predict(X_val) val_accuracy = accuracy_score(y_val, y_val_pred) print(f"验证集准确率：{val_accuracy:.4f}") # 7. 用完整训练集重新训练（提升模型泛化能力） model.fit(X, y) # 8. 测试集预测 y_test_pred = model.predict(X_test) # 9. 生成提交文件 submission = pd.DataFrame({ 'PassengerId': test_passenger_ids, 'Survived': y_test_pred }) # 保存提交文件（Kaggle会自动识别该路径下的文件用于提交） submission.to_csv('/kaggle/working/titanic_submission.csv', index=False) print("提交文件生成完成！") print(submission.head()) # 查看前5行确认格式正确

ERNIE 4.5-VL震撼发布：424B参数多模态AI新标杆

ERNIE 4.5-VL震撼发布：424B参数多模态AI新标杆【免费下载链接】ERNIE-4.5-VL-424B-A47B-Base-PT 项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-424B-A47B-Base-PT 百度正式发布新一代多模态大模型ERNIE 4.5-VL，以4240亿总参…

李华

csdn官网博客迁移：我的IndexTTS2踩坑之路回顾

我的IndexTTS2踩坑之路回顾在尝试为一个语音助手项目寻找合适的本地化中文TTS方案时，我几乎翻遍了GitHub上所有开源项目。直到朋友推荐了“科哥”主导开发的 IndexTTS2，才真正让我眼前一亮——它不仅支持情感控制、提供WebUI界面，还能一键部…

李华

如何快速掌握freac：音频转换的完整终极指南 [特殊字符]

如何快速掌握freac：音频转换的完整终极指南 🎵 【免费下载链接】freac The fre:ac audio converter project 项目地址: https://gitcode.com/gh_mirrors/fr/freac 你是否曾经因为音频格式不兼容而烦恼？或者想要将珍藏的CD转换成数字格…

李华

ASMR音频高效获取指南：从零开始打造个人专属音库

还在为寻找心仪的ASMR资源而四处奔波吗？面对海量音频内容却不知从何入手？传统的资源获取方式往往伴随着复杂的搜索流程和繁琐的手动操作，让本该愉悦的听觉体验变得索然无味。现在，asmr-downloader将彻底改变这一现状，让…

李华

git commit签名验证确保IndexTTS2代码来源安全

Git Commit签名验证确保IndexTTS2代码来源安全在AI语音合成技术飞速发展的今天，IndexTTS2这样的开源项目正被广泛应用于智能客服、有声读物生成和虚拟主播等场景。随着其影响力扩大，一个隐忧也逐渐浮现：我们如何确定从GitHub下载的代码&…

李华

ERNIE 4.5-VL震撼发布：424B参数多模态AI新标杆

csdn官网博客迁移：我的IndexTTS2踩坑之路回顾

如何快速掌握freac：音频转换的完整终极指南 [特殊字符]

OpenRGB：统一RGB灯光控制的终极解决方案

ASMR音频高效获取指南：从零开始打造个人专属音库

git commit签名验证确保IndexTTS2代码来源安全