使用R语言进行美国德州死刑犯遗言网页爬取与文本分析的步骤如下:
网页数据抓取:
利用rvest包抓取网页数据。注意处理原始表格中的“Link”列名误导,提取出正确的链接。统一处理相对路径和绝对路径,确保所有链接都是相对路径。
处理缺失遗言的情况:
在抓取过程中,注意到102个犯人没有留下遗言,需要在提取网页内容时特别小心处理这些缺失值。
批量抓取遗言内容:
编写函数进行批量抓取。使用for循环和tryCatch处理可能的错误,确保抓取过程的稳健性。虽然过程耗时,但实时反馈有助于监控抓取进度。
文本分析:
采用tm包进行文本预处理和词频统计。预处理阶段省略了词根处理,因为对结果影响不大。
生成词云:
使用wordcloud2包生成词云。词云揭示了遗言中的积极情绪,与古老格言“人在将死时,言语往往充满善意”相呼应。
后续研究方向:
研究宗教词汇的使用频率是否随时间或种族变化。分析死刑犯遗言的整体情感倾向是否受到时间或种族的影响。
这些步骤和发现为后续的深入研究提供了基础和方向。