农业病虫害对农作物的产量和品质造成了严重的威胁,因此准确、高效地检测和识别病虫害是农业生产中的重要任务。本文介绍了一个综合的农业病虫害数据集,由农业虫害检测数据集、农业病害检测数据集、农业病害分类数据集和水稻表型分割数据集组成,包含55个类别、48576张,共4.14 GB的图像样本。从公开数据源和学术论文中收集和整理数据,保证了数据集的多样性和代表性。在数据的筛选、清洗和标注过程中,采用了严格的质量控制和验证措施,以确保数据集的准确性和可靠性。该数据集可用于农业病虫害识别和水稻表型鉴定等农业视觉任务,能够为农业病虫害研究提供有价值的资源,并促进农业生产的可持续发展。
土地规模经营是中国农业实现现代化转型的关键,但是现阶段面临土地流转增速放缓、适度规模化经营发展受阻等现实问题。江苏省经济发展水平较高,土地流转市场发育较为成熟,除了依靠市场机制运行,地方政府通过土地再调整、充当中介组织等方式创新土地流转形式,在推动土地连片规模化经营方面也发挥了关键作用。该数据集以2020-2022年中国土地经济调查CLES数据库为基础数据,按照规范化步骤整理形成943个地块、5923户农户和114个村庄3个数据集,数据内容包含土地利用和流转、规模经营信息。数据集为展现江苏省土地流转、规模化经营情况提供了可靠的经验证据,同时也为政府部门制定合理的政策干预提供了参考。
数据摘要:
通过信息技术提高农业生产的效率、优化农业生产中的问题对我国农业发展至关重要。目前,信息技术的发展产生了海量数据,这些数据大多以碎片化、非结构化的形式分布在网络上。尤其在农业领域,使用传统搜索引擎进行信息检索难以高效准确地获取其中有价值的农业信息,往往需要消耗大量的时间和精力从海量无组织的数据中进行二次收集和整理。针对上述问题,本文通过网络爬虫技术挖掘公开的农业网站中的数据,经过自动化或半自动化数据清洗、去噪等过程,将非结构化的数据重新组合成结构化的数据,最终以知识图谱的方式进行存储。所构建的农业知识图谱数据集包括粮食作物、经济作物、水果、蔬菜等11个农业大类、共计8 481个小类的条目数据,每个小类条目对应一种农业生物或药物。具体包括粮食作物461种、经济作物2 208种、水果1 294种、蔬菜257种、食用菌118种、花木1 161种、水产142种、农药113种、农作物病虫害1 605种、兽药519种、中草药603种。根据该数据集构建的农业知识图谱三元组达到90 508条,规模较大、覆盖品类较为广泛,能够为农业知识问答、推荐系统等人机交互友好的智能应用研发提供基础数据支撑;同时,在生成式大模型中融入农业领域知识图谱,有助于在垂直领域上实现更为高效、精准的信息检索和智能决策。
本研究以中国农村电商实证数据为综述对象,按照电商定向干预和农产品交易地的特征将农村电商数据类型分为两类数据集。其中,数据集Ⅰ包括电子商务进农村综合示范县数据库、淘宝村与电商指数数据库;数据集Ⅱ包括农产品电商数据库与农产品跨境电商数据库。以此探讨不同数据集内若干农村电商研究主题所用数据的来源、指标内容、时间跨度、优劣势等内容,系统性梳理农村电商研究所用数据的来龙去脉,为该领域实证检验提供数据库筛选的参考,从而有效推动农村电商发展研究的理论进程。
产业兴旺是乡村振兴的重中之重。农产品成本收益调查记录了农产品投入、产出、收益等情况,是政府部门进行宏观调控和价格管理的基础。新时代新征程,这套数据将在推进乡村振兴战略过程中发挥更大作用。很多学者基于该套数据分析我国农业投入要素使用、生产力、成本、利润等状况,但对数据库样本选择、采集过程、相关指标内涵等细节介绍有待加强。因此,本文收集了早籼稻、中籼稻、晚籼稻、粳稻、小麦和玉米等三种粮食2005-2017年31个地区的成本收益调查数据,形成数据集。本文重点对数据产生的背景、数据采集的方法、数据的主要内容以及数据的使用价值进行介绍。相关学者不仅可以使用该数据分析我国农产品的投入产出状况,也可以借鉴该数据的抽样方法、质量控制经验等。
农机购置补贴政策作为一项重要的强农惠农政策,对小农户及新型农业经营主体生产决策、农业生产以及农机行业发展等多方有深刻影响。通过搜集农机补贴政策背景下全国性农机购置与补贴数据,掌握各省市县农机购置差异、变动特征与趋势,才能合理评估政策所带来的影响,进而调整农机购置补贴政策目标与内容,从而推动农机市场健康发展,更好助力农业强国建设。目前,我国各省农业农村厅的农机购置补贴信息公开专栏实时发布农机购置相关数据。通过网络爬取、数据处理,得到涵盖2021—2022年北京、天津、山西等23个省(自治区、直辖市)农机购置与应用补贴信息、共计2226229条数据的数据集。该数据集可用于分析各地农机购置特征、差异以及补贴发放情况,为相关科学研究和管理决策提供数据基础。
我国是世界范围内鸡蛋生产和消费的第一大国,鸡蛋也是我国居民膳食结构中主要的蛋白质来源之一,了解我国消费者对鸡蛋的偏好具有现实意义。本研究旨在了解中国消费者对鸡蛋的生产方式、认证标准和其他相关属性的偏好,以提供市场定位策略和科学依据,并为相关政策制定和饮食健康教育提供指导。问卷设计以离散选择实验设计为主体,结合对受访者相关食品安全知识的了解程度和人口学特征变量等数据的收集。最终课题组通过在线问卷平台收集到了全国30个省级行政区共1085份鸡蛋消费者样本数据,形成了2020年我国鸡蛋消费选择偏好数据集。数据集包括消费者鸡蛋消费过程中购买频率、购买来源,以及对鸡蛋价格、饲养方式、蛋鸡种类、食品安全认证属性的偏好等13个方面的内容。该数据集表明消费者对鸡蛋的生产方式、认证标准等属性有明确的偏好。这份数据集为我国禽蛋产品的消费偏好提供了基础数据,对于了解居民的消费习惯与偏好,保障国家食品安全,为食品企业制定市场策略,以及为政府科学制定决策提供了有力支持。
储粮害虫是造成粮食产后损失的重要因素,对粮食害虫早期活动进行检测和监控是减少储粮损失的必要且合适的防控措施。随着人工智能的发展,基于深度学习的图像检测方法在农业领域得到了广泛应用,目前在储粮害虫检测领域的研究相对较少,数据集的质量往往决定了深度学习模型能够学到的知识水平,因此构建专门用于储粮害虫图像检测和计数的数据集具有重要意义。本文提出的数据集GrainPest包含500幅粮虫原始图像、500幅像素级显著目标标注图像、420个害虫检测目标框标注文件和500条粮虫数量数据。数据集涵盖了玉米象、麦蛾、谷蠹、玉米螟、大谷盗、蚕豆象、米象、咖啡豆象、绿豆象、印度谷螟等主要粮食害虫,图像背景涉及小麦、玉米、大米、稻谷、绿豆、蚕豆等常见粮食。由于实际检测中有很多粮食是未感染虫害的,因此数据集还包含了80幅不含害虫目标的纯粮食背景图像,这增加了害虫显著性检测的难度。本数据集提供了一个多样性的粮虫图像基准数据集,旨在促进深度学习在储粮害虫显著性检测、目标检测和粮虫计数方面的研究,为降低粮食储藏损失和保障粮食安全提供支持。
为了解决人工智能(Artificial Intelligence)应用在地球物理参数反演中的“黑箱”问题,使得人工智能应用具有物理意义和可解释性及普适性,深度学习耦合物理方法和统计方法的理论和技术在各学科领域正在陆续展开。本研究通过梳理作者20余年的相关研究,在前面归纳和演绎得到人工智能地球物理参数反演范式理论和判定条件基础上,分别给出了遥感参数人工智能反演范式和判定条件。目前大家研究普遍遇到一个问题,很多人工智能参数反演理论模拟数据反演精度非常高,但实际应用反演精度不理想,因此深度学习如何耦合物理方法和统计方法成为当前亟须解决的工程与技术难题。我们以被动微波土壤水分和地表温度反演为例进行阐述,分析表明物理模型本身的精度还要很大的提升空间或者模拟数据只代表现实情况中的少部分情况。因此只利用物理模型模拟数据直接进行反演还存在很大的局限,必须补充大量高精度的多源统计观测数据。同时可以通过利用模拟数据对深度学习训练和用实际数据检验物理模型的误差。统计方法是人类最直观的描述,物理方法是对统计方法的归纳演绎总结,但真实世界的信息或能量传输是按量子形式传递,物理模型只是当前人们认识世界的最高形式,大部分模型并没有刻画好真实信息流。深度学习中的不同神经元更适合描述和表达量子信息的传输方式,以微积分量子能量信息流认识真实世界需要提高人类的思维认知方式,这才是最高模式。如何采集满足真实情况(量子信息或能量传输)的数据显得非常重要,当前可以充分利用物理逻辑推理构建物理方法和统计方法,并在范式理论和判定条件框架指导下利用大数据思维模式提高地球物理参数反演精度。通过物理逻辑推理证明输入变量能唯一确定输出变量是形成具有物理意义和可解释及通用的反演或分类或预测范式的基本条件,从量子信息(能量)传输真实角度控制采集数据质量是地球物理参数高精度反演工程与技术实现的关键,提高微积分量子信息流思维认知和甄辨物理模型的局限对实现人工智能高精度反演具有里程碑意义。
随着互联网的普及,农业知识和信息的获取变得更加便捷,但信息大多固定且通用,无法针对具体情况提供定制化的解决方案。在此背景下,大语言模型(Large Language Models,LLMs)作为一种高效的人工智能工具,逐渐在农业领域中获得关注和应用。目前,LLMs技术在农业领域大模型的相关综述中只是简单描述,并没有系统地介绍LLMs构建流程。本文重点介绍了农业垂直领域大语言模型构建流程,包括数据采集和预处理、选择适当的LLMs基模型、微调训练、检索增强生成 (Retrieval Augmented Generation,RAG)技术、评估过程。以及介绍了LangChain框架在农业问答系统中的构建。最后,总结出当前构建农业垂直领域大语言模型的一些挑战,包括数据安全挑战、模型遗忘挑战和模型幻觉挑战,以及提出了未来农业垂直领域大语言的发展方向,包括多模态数据融合、强时效数据更新、多语言知识表达和微调成本优化,以进一步提高农业生产的智能化和现代化水平。
深度神经网络是棉花病害智能识别的一种重要方法。覆盖更多病害、土壤和环境信息的科学数据既是此类方法发展的基础,也是当前的关键制约因素之一。本文提出的棉花病害数据采集自中国海南省三亚市坡田洋高标准农田示范基地中的棉花种植田块,覆盖了炭疽病、细菌性角斑病、褐斑病和枯萎病四种常见棉花病害,包括3453张高分辨率的健康叶片和不同生长阶段的病叶图像。所有样品获取均采用田间随机采样方式,经筛选后由10名棉花病理学专家进行鉴定与标注,同时另选20名标注者对标注后图像进行随机重复标注以检测质量,Vision Transformer模型被引入以进一步验证数据集的稳定性。相对于其他同类数据集,当前数据集数据采集于复杂的田间环境,覆盖了常见棉花病害且具有高分辨率,可更好地服务于棉花病害智能识别模型、算法的研究、训练与验证。