20234212童德昌 实验四《Python程序设计》实验报告

20234212童德昌 2024-05-28 22:18:41

# 20234212  2022-2023-2 《Python程序设计》综合实践

课程:《Python程序设计》
班级: 2342
姓名: 童德昌
学号:20234212
实验教师:王志强
实验日期:2024年4月22日
必修/选修: 公选课

## 1.实验内容

Python综合应用:爬虫、数据处理、可视化、机器学习、神经网络、游戏、网络安全等。
课代表和各小组负责人收集作业(源代码、视频、综合实践报告)
例如:编写从社交网络爬取数据,实现可视化舆情监控或者情感分析。
例如:利用公开数据集,开展图像分类、恶意软件检测等
例如:利用Python库,基于OCR技术实现自动化提取图片中数据,并填入excel中。
例如:爬取天气数据,实现自动化微信提醒
例如:利用爬虫,实现自动化下载网站视频、文件等。
例如:编写小游戏:坦克大战、贪吃蛇、扫雷等等
注:在Windows/Linux系统上使用VIM、PDB、IDLE、Pycharm等工具编程实现。

## 2. 实验过程及结果

1.安装必要的Python库

我们需要安装pytesseract库来进行OCR识别,以及pandasopenpyxl库来操作Excel文件。此外,还需要安装PILPillow库来处理图片。

2.配置Tesseract路径

我们需要额外安装Tesseract OCR引擎,并指定Tesseract的安装路径,以便pytesseract库能够找到它。

 3.加载图片并进行OCR识别

使用PILPillow库加载图片,然后使用pytesseract进行文字识别。

 4.数据清洗与整理

提取出的文本可能包含不需要的信息,如换行符、空格等。你可能需要对其进行清洗和格式化,以便将其转换为结构化的数据。

 5.将数据填入Excel

使用pandas库创建一个DataFrame,然后将清洗后的数据填入DataFrame,并保存到Excel文件中。

6.创建主文件

通过main()函数的使用,使得程序逻辑通畅。

7.运行与结果

被截取图片:

  结果:

 

##3.问题

1.对于该技术不了解

通过上网查阅资料与案例加深理解。

2.报错:‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated \UXXXXXXXX escape

查阅资料,发现在文件夹中复制地址时,文件夹中的地址是用  \ 来分隔不同的文件夹,而Python识别地址时只能识别用 / 分隔的地址。通过在字符串前加上rR解决。

具体解决方法为:image_path = r'C:\Users\tdc\Pictures\Screenshots\屏幕截图 2024-03-19 191146.png'

3.代码运行后,控制台未显示提取的文本

未添加打印输出的语句print()。

具体解决方法为:print("Cleaned Text:", cleaned_text)

4.运行后未截取中文

Tesseract-OCR 安装时,未加载识别中文所需的语言数据。经过重新安装后仍未解决。通过AI工具查找问题,发现未指定中文。

具体解决方法为:text = pytesseract.image_to_string(img, lang='chi_sim')

## 源代码

from PIL import Image
import pytesseract
import pandas as pd

pytesseract.pytesseract.tesseract_cmd = r'D:\学习\大一下\Python选修\Tesseract-OCR\tesseract.exe'


def extract_text_from_image(image_path):
    image = Image.open(image_path)
    text = pytesseract.image_to_string(image, lang='chi_sim')
    return text


def clean_text(text):
    cleaned_text = text.replace(r'\n', ' ').strip()
    print("Cleaned Text:", cleaned_text)
    return cleaned_text


def main():
    image_path = r'C:\Users\tdc\Pictures\Screenshots\屏幕截图 2024-03-19 191146.png'
    extracted_text = extract_text_from_image(image_path)
    cleaned_data = clean_text(extracted_text)

    df = pd.DataFrame([cleaned_data], columns=['Extracted Data'])
    with pd.ExcelWriter('output.xlsx', engine='openpyxl') as writer:
        df.to_excel(writer, sheet_name='Sheet1', index=False)


if __name__ == "__main__":
    main()

## 4.资料(部分)

(1)CSDN:Python报错:‘unicodeescape‘ codec can‘t decode bytes in position 2-3: truncated \UXXXXXXXX escape                                            链接:Python报错:‘unicodeescape‘ codec can‘t decode bytes in position 2-3: truncated \UXXXXXXXX escape-CSDN博客

(2)CSDN:Tesseract-OCR下载和安装,Python-OCR使用                                                                                                                                            链接:Tesseract-OCR下载和安装,Python-OCR使用_tesseract-ocr python 下载-CSDN博客

(3)天工AI:问题3、4的完全解决。

## 5.实验感想

这次实验相较于前三次实验,难度提升了不止一个档次,在做这次实验时,我时常需要查阅资料,但当我将其一点点的搭建起来时,一种成就感油然而生。事实上,本次实验既是对我们本学期所学的综合性检测,也是让我们实践自身所学与能力的平台。就我而言,这次实验加深了我对于Python的实用性的认识,也体会到以Python为代表的编程是如何改变我们的学习与生活。

## 6.结课感想

不知不觉,一个学期临近尾声,我依稀还记得,在选修Python时那种好奇与期待,但经过12周的学习后,我发现Python的学习并不如我所料想得一帆风顺,而是有重重风浪阻碍着我的前进。但所幸,Python的学习是一个渐进的过程,在期间,有数个“岛屿”可供我们暂时停靠修整,以便更好在学海中遨游。而更为幸运的是,有王志强老师这样优秀且具备耐心的好老师在托举着挣扎于学海的我们,无论我们有什么样的学习问题,都可以向他求助,并且能得到详尽而又生动的回答。或许在未来的某一天,我们已经忘记Python课上的具体内容,但对于Python的那份探求之情铭记于心。

至于建议,我希望能够自编新教材,统一购买的教材使用率还是太低了。同时,可以增加课堂上的互动频率,避免部分学生未能跟上进度。

...全文
300 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
内容概要:本文研究基于粒子群算法(PSO)优化模糊C均值聚类(FCM)的居民用电行为分析方法,提出一种改进的FCM聚类算法,通过引入粒子群优化机制,有效提升聚类性能与收敛效率,克服传统FCM算法易陷入局部最优、对初始聚类中心敏感等缺陷。研究基于Matlab平台实现算法代码,对居民用电负荷数据进行聚类分析,识别不同用户的典型用电模式与行为特征,进而支持电力系统的需求侧精细化管理、用户分群运营、个性化用电服务推荐以及中长期负荷预测。该方法在智能电网与大数据背景下展现出良好的应用前景,特别适用于大规模居民用电数据的行为挖掘与模式识别任务。; 适合人群:具备一定电力系统基础知识、数据挖掘或智能优化算法背景的科研人员及工程技术人员,尤其适合从事智能电网、负荷特性分析、需求响应、用户行为研究等方向的硕士、博士研究生及高校教师。; 使用场景及目标:①实现居民用户用电行为的有效分类与典型负荷曲线提取;②优化电力客户细分策略,支撑差异化电价、需求响应激励政策的设计与实施;③为负荷预测、电网规划、配电台区管理提供数据驱动的决策依据;④作为高水平学术论文(如EI、SCI期刊)的研究基础,用于算法复现、性能对比与创新改进。; 阅读建议:建议读者结合提供的Matlab代码深入理解PSO-FCM算法的具体实现流程,重点关注粒子编码方式、适应度函数构建、聚类有效性评价指标(如轮廓系数、误差平方和)的应用,鼓励在真实用电数据集上进行实验验证,并尝试引入其他优化策略或评估维度以进一步提升模型鲁棒性与实用性。
【重要提示】本资源设置为0积分下载,若非0积分请勿轻易下载 亲爱的CSDN用户: 首先感谢你点进这个资源页面。我需要提前说明一个重要情况: 本资源原本已设置为“0积分下载”,即作者希望完全免费共享。但CSDN平台有时会根据文件的下载热度、文件大小、用户权限等因素,自动将部分资源的积分调整为非0数值(如1积分、2积分、5积分等)。这是平台系统的自动行为,而非作者本人的设定。 因此,如果你当前看到该资源的下载所需积分不是0(例如显示为1、2、3……),请谨慎决定是否下载。 如果你按照非0积分支付并下载后发现资源内容不符合预期、链接失效,或者实际上该资源本应是免费的,作者无法为此承担积分损失或退还操作。强烈建议:仅在页面显示为0积分时进行下载。 另外,本资源描述中并未直接提供具体的下载地址或外部链接,因为它本身是一个通过CSDN官方上传通道提交的文件/内容包。如果你看到描述中没有外部网盘地址,这是正常的——资源文件应通过CSDN内置的“下载”按钮获取。若因平台积分显示异常导致你支付了积分,请优先联系CSDN客服咨询积分退还政策,作者没有权限修改平台自动设定的积分值。 感谢你的理解与支持。技术分享本应开放,但受限于平台规则,特此提醒如上。祝学习进步!
代码转载自:https://pan.quark.cn/s/a1913ccaa47a 在信息技术领域中,图像处理占据着核心地位,特别是在嵌入式系统以及移动设备上,由于受到资源条件的制约,常常需要将高分辨率的图像格式转化为低分辨率的格式,以此来提升显示效能和存储容量。"bmp格式转为rgb565格式图片转换工具"正是为了应对这种需求而研发的。BMP(Bitmap)是一种广泛应用的位图格式,它完整地记录了图像的每一个像素点信息,涵盖了色彩深度、透明度等参数。然而,这种格式在内存消耗和处理速率方面并不具备优势,尤其是在需要高速渲染的情境下。RGB565是一种16位的色彩编码格式,普遍应用于嵌入式系统,例如由微控制器控制的LCD显示屏。它通过分配5位红色、6位绿色以及5位蓝色分量来表现色彩,总共能够呈现2^16 = 65536种色彩,尽管其色彩数量(约1670万种)少于BMP的24位色彩,但足以满足绝大多数显示场景,并且显著降低了数据存储和传输的负担。这种转换工具的运作机制在于读取BMP文件中的每一个像素点,然后依照RGB565的编码规范重新组织色彩信息。在BMP文件中,像素数据一般以行为单位进行存储,遵循从左到右、自下而上的顺序。而在RGB565格式中,每个像素点由两个字节构成,其中红色和蓝色各占5位,绿色占据6位,这样的布局旨在提升内存中的对齐效率。转换流程通常包括以下几个环节:1. 分析BMP文件头部:BMP文件头部包含了图像的宽度、高度、色彩深度等关键数据,这是进行转换的依据。2. 获取像素数据:按照BMP文件的结构读取每一行的像素点信息。3. 色彩转换:将每个24位RGB色彩点转换为16位RGB565格式。4. 输出新格式:将转换后的RGB565数据写入新的...
内容概要:本文系统研究了基于合作博弈理论的综合能源系统利益分配优化调度方法,并配套提供了完整的Matlab代码实现。针对多个能源主体协同运行场景下的利益分配难题,文章构建了严谨的合作博弈模型,结合优化调度算法,在实现系统整体经济效益最大化的同时,确保各参与方之间的利益分配公平合理。研究内容涵盖模型的数学建模、理论推导、求解流程设计及仿真验证全过程,重点突出了Shapley值等经典博弈分配方法在能源系统中的应用,具有较强的理论深度与工程实践价值,适用于致力于高水平学术研究(如EI/SCI论文撰写)的科研人员。; 适合人群:具备电力系统、优化理论及博弈论基础知识,从事综合能源系统调度、分布式能源协同管理、能源互联网经济性分析等方向研究的硕士、博士研究生及高校科研人员。; 使用场景及目标:①用于多主体综合能源系统中利益分配机制的设计与仿真分析;②支撑高质量学术论文的撰写、复现与创新;③为实际能源项目中的协调调度决策与经济性评估提供理论依据与技术工具支持。; 阅读建议:建议读者结合Matlab代码逐模块研读,深入理解合作博弈模型与优化调度算法的耦合逻辑,重点关注Shapley值等分配机制的计算实现,并可通过调整参数或拓展模型结构进行二次开发与对比实验

93

社区成员

发帖
与我相关
我的任务
社区描述
Python程序设计作业
软件构建 高校 北京·丰台区
社区管理员
  • blackwall0321
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧