FuisonBench

About FusionBench

FusionBench is a comprehensive and complex benchmark designed to evaulate large language models (LLMs) Question Answering (QA) capabilities under both ambiguity and heterogeneity. It has 7,179 QA pairs, with approximately 15.8K text snippets, 137.7K table entries, and 198.1K triples overall.

News

Submission

Citation

⚙ This website is modified from Bird-Bench.

Leaderboard - Evidence-aware QA with Multiple Answers

	Model	AR	AP	F1^A	ER	EP	F1^E	EAR	EAP	F1^EA
Mar 25, 2025	Gemini-2.5-Pro w/ R	0.810	0.815	0.812	0.882	0.851	0.866	0.782	0.783	0.783
Mar 25, 2025	Gemini-2.5-Pro	0.750	0.823	0.785	0.785	0.897	0.837	0.704	0.747	0.725
Jan 22, 2025	DeepSeek-R1 w/ R	0.741	0.812	0.775	0.830	0.929	0.877	0.706	0.768	0.736
Apr 18, 2024	LLaMA-3-70B-Instruct	0.730	0.793	0.760	0.834	0.917	0.874	0.689	0.752	0.719
Mar 25, 2025	Gemini-2.5-Flash	0.750	0.738	0.744	0.834	0.895	0.863	0.728	0.716	0.722
Aug 08, 2025	Qwen-Plus w/ R	0.719	0.780	0.748	0.872	0.947	0.908	0.691	0.745	0.717
Nov 6, 2024	DeepSeek-V3	0.720	0.771	0.745	0.855	0.939	0.895	0.688	0.737	0.712
Aug 08, 2025	Qwen-Plus	0.702	0.797	0.746	0.816	0.925	0.867	0.674	0.754	0.712
July 18, 2024	GPT-4o-Mini	0.686	0.796	0.737	0.783	0.933	0.851	0.650	0.765	0.703
Mar 13, 2024	GPT-4o	0.669	0.814	0.734	0.761	0.926	0.835	0.636	0.766	0.695
Jun 6, 2024	GLM-4-Air	0.660	0.770	0.711	0.775	0.927	0.844	0.625	0.726	0.672
Aug 07, 2025	Qwen3-8B	0.612	0.782	0.687	0.767	0.966	0.855	0.598	0.766	0.672
Aug 07, 2025	Qwen3-32B	0.626	0.771	0.691	0.789	0.975	0.872	0.612	0.753	0.675
Jun 6, 2024	GLM-4-Plus	0.609	0.799	0.691	0.711	0.952	0.814	0.579	0.761	0.657
Apr 18, 2024	LLaMA-3-8B-Instruct	0.608	0.705	0.653	0.727	0.830	0.775	0.546	0.634	0.587
Jun 6, 2024	GLM-4-9B	0.542	0.746	0.628	0.498	0.857	0.630	0.472	0.649	0.547

	Model	AR	AP	F1^A	ER	EP	F1^E	EAR	EAP	F1^EA
	Model
Mar 25, 2025	Gemini-2.5-Pro w/ R	0.828	0.851	0.839	0.900	0.989	0.942	0.820	0.844	0.832
Jan 22, 2025	DeepSeek-R1 w/ R	0.787	0.853	0.819	0.865	0.968	0.914	0.770	0.832	0.800
Apr 18, 2024	LLaMA-3-70B-Instruct	0.801	0.853	0.826	0.850	0.935	0.890	0.763	0.821	0.791
July 18, 2024	GPT-4o-Mini	0.788	0.875	0.829	0.823	0.942	0.878	0.749	0.842	0.793
Mar 25, 2025	Gemini-2.5-Pro	0.781	0.869	0.823	0.807	0.951	0.873	0.759	0.833	0.794
Nov 6, 2024	DeepSeek-V3	0.783	0.839	0.810	0.855	0.949	0.900	0.749	0.806	0.777
Aug 08, 2025	Qwen-Plus w/ R	0.752	0.829	0.789	0.895	0.992	0.941	0.746	0.821	0.782
Aug 07, 2025	Qwen3-32B	0.756	0.830	0.791	0.854	0.947	0.898	0.726	0.792	0.757
Aug 08, 2025	Qwen-Plus	0.752	0.807	0.779	0.899	0.972	0.934	0.735	0.789	0.761
Mar 13, 2024	GPT-4o	0.711	0.874	0.784	0.760	0.945	0.842	0.683	0.835	0.751
Jun 6, 2024	GLM-4-Air	0.740	0.825	0.780	0.793	0.908	0.847	0.684	0.762	0.721
Mar 25, 2025	Gemini-2.5-Flash	0.756	0.767	0.761	0.838	0.918	0.876	0.751	0.762	0.756
Aug 07, 2025	Qwen3-8B	0.663	0.837	0.740	0.790	0.980	0.875	0.657	0.828	0.732
Jun 6, 2024	GLM-4-Plus	0.663	0.835	0.739	0.740	0.955	0.834	0.631	0.797	0.705
Apr 18, 2024	LLaMA-3-8B-Instruct	0.695	0.730	0.712	0.753	0.794	0.773	0.611	0.643	0.627
Jun 6, 2024	GLM-4-9B	0.528	0.795	0.635	0.559	0.859	0.677	0.462	0.690	0.553

Leaderboard - Evidence-aware QA with Unique Answer

	Model	AR	AP	F1^A	ER	EP	F1^E	EAR	EAP	F1^EA
Jan 21, 2026	Qwen-Plus w/ R	0.838	0.626	0.717	0.902	0.864	0.883	0.779	0.585	0.668
Jan 21, 2026	DeepSeek-R1 w/ R	0.801	0.619	0.698	0.879	0.837	0.857	0.747	0.582	0.655
Jan 21, 2026	Glm-4-Plus	0.829	0.629	0.715	0.871	0.825	0.847	0.747	0.569	0.646
Jan 21, 2026	Qwen-Plus	0.839	0.574	0.682	0.925	0.813	0.865	0.785	0.536	0.637
Jan 21, 2026	GPT-4o	0.845	0.624	0.718	0.860	0.828	0.844	0.742	0.553	0.634
Jan 21, 2026	Gemini-2.5-Pro w/ R	0.821	0.598	0.692	0.839	0.768	0.802	0.746	0.540	0.626
Jan 21, 2026	Gemini-2.5-Pro	0.860	0.600	0.707	0.871	0.793	0.830	0.764	0.526	0.623
Jan 21, 2026	Gemini-2.5-Flash	0.821	0.587	0.681	0.827	0.758	0.791	0.729	0.523	0.609
Jan 21, 2026	DeepSeek-V3	0.828	0.556	0.665	0.878	0.789	0.831	0.753	0.510	0.608
Jan 21, 2026	Qwen-33B	0.864	0.534	0.660	0.900	0.798	0.846	0.790	0.493	0.607
Jan 21, 2026	Qwen-3-8B	0.831	0.586	0.687	0.808	0.748	0.777	0.706	0.503	0.587
Jan 21, 2026	LLaMA3-70B-Instruct	0.763	0.614	0.680	0.814	0.729	0.769	0.650	0.521	0.578
Jan 21, 2026	GPT-4o-Mini	0.756	0.532	0.625	0.803	0.737	0.769	0.640	0.460	0.535
Jan 21, 2026	Glm-4-Air	0.791	0.543	0.644	0.746	0.686	0.715	0.642	0.447	0.527
Jan 21, 2026	Glm-4-9B	0.738	0.472	0.576	0.624	0.501	0.556	0.503	0.303	0.378
Jan 21, 2026	LLaMA3-8b-Instruct	0.535	0.288	0.374	0.598	0.351	0.442	0.399	0.198	0.265

	Model	AR	AP	F1^A	ER	EP	F1^E	EAR	EAP	F1^EA
	Model
Jan 21, 2026	Gemini-2.5-Pro w/ R	0.881	0.662	0.756	0.985	0.925	0.954	0.872	0.653	0.747
Jan 21, 2026	Qwen-Plus w/ R	0.851	0.645	0.734	0.938	0.908	0.923	0.822	0.627	0.711
Jan 21, 2026	Gemini-2.5-Pro	0.865	0.619	0.722	0.951	0.905	0.927	0.844	0.604	0.704
Jan 21, 2026	Gemini-2.5-Flash	0.821	0.618	0.705	0.917	0.860	0.888	0.810	0.610	0.696
Jan 21, 2026	Glm-4-Plus	0.835	0.634	0.721	0.903	0.859	0.880	0.778	0.597	0.675
Jan 21, 2026	DeepSeek-R1 w/ R	0.802	0.622	0.701	0.905	0.858	0.881	0.771	0.600	0.675
Jan 21, 2026	Qwen-Plus	0.857	0.574	0.688	0.971	0.834	0.897	0.838	0.561	0.672
Jan 21, 2026	Qwen-33B	0.870	0.550	0.674	0.937	0.842	0.887	0.829	0.529	0.646
Jan 21, 2026	DeepSeek-V3	0.845	0.584	0.691	0.887	0.823	0.854	0.780	0.545	0.642
Jan 21, 2026	LLaMA3-70B-Instruct	0.779	0.639	0.702	0.845	0.773	0.807	0.691	0.571	0.625
Jan 21, 2026	Qwen-3-8B	0.839	0.583	0.688	0.841	0.785	0.812	0.738	0.525	0.613
Jan 21, 2026	GPT-4o	0.846	0.622	0.717	0.820	0.785	0.802	0.717	0.530	0.609
Jan 21, 2026	GPT-4o-Mini	0.770	0.541	0.635	0.834	0.766	0.799	0.681	0.485	0.566
Jan 21, 2026	Glm-4-Air	0.803	0.558	0.658	0.750	0.691	0.719	0.654	0.461	0.541
Jan 21, 2026	Glm-4-9B	0.756	0.516	0.613	0.663	0.561	0.608	0.546	0.354	0.430
Jan 21, 2026	LLaMA3-8b-Instruct	0.539	0.307	0.391	0.547	0.356	0.431	0.397	0.210	0.274

Leaderboard - RAG-based QA

	Model	AR	AP	F1^A	ER	EP	F1^E	EAR	EAP	F1^EA
Mar 25, 2025	Gemini-2.5-Pro w/ R	0.738	0.798	0.767	0.722	0.802	0.760	0.662	0.693	0.677
Mar 25, 2025	Gemini-2.5-Pro	0.724	0.753	0.738	0.722	0.790	0.754	0.649	0.657	0.653
Mar 25, 2025	Gemini-2.5-Flash	0.682	0.777	0.726	0.654	0.743	0.696	0.598	0.632	0.614
Mar 25, 2025	DeepSeek-V3	0.669	0.761	0.712	0.674	0.784	0.725	0.580	0.654	0.615
Jan 22, 2025	DeepSeek-R1 w/ R	0.638	0.763	0.695	0.660	0.803	0.725	0.578	0.682	0.626
Apr 18, 2024	LLaMA-3-70B-Instruct	0.665	0.744	0.702	0.649	0.741	0.692	0.572	0.633	0.601
Mar 13, 2024	GPT-4o	0.607	0.799	0.690	0.593	0.755	0.664	0.529	0.666	0.590
July 18, 2024	GPT-4o-mini	0.604	0.772	0.678	0.597	0.781	0.677	0.525	0.674	0.590
Aug 08, 2025	Qwen-Plus	0.624	0.778	0.693	0.656	0.808	0.724	0.562	0.680	0.615
Aug 08, 2025	Qwen-Plus w/ R	0.584	0.801	0.676	0.618	0.846	0.714	0.537	0.724	0.617
Aug 07, 2025	Qwen3-32B	0.570	0.801	0.666	0.597	0.827	0.693	0.510	0.711	0.594
Aug 07, 2025	Qwen3-8B	0.581	0.785	0.668	0.605	0.803	0.690	0.515	0.689	0.589
Jun 6, 2024	GLM-4-Air	0.599	0.759	0.670	0.607	0.770	0.679	0.517	0.637	0.571
Jun 6, 2024	GLM-4-Plus	0.552	0.798	0.653	0.554	0.805	0.656	0.481	0.685	0.565
Jun 6, 2024	GLM-4-9B	0.488	0.752	0.592	0.480	0.755	0.587	0.403	0.614	0.487
Apr 18, 2024	LLaMA-3-8B-Instruct	0.567	0.649	0.605	0.549	0.633	0.588	0.454	0.522	0.486

	Model	AR	AP	F1^A	ER	EP	F1^E	EAR	EAP	F1^EA
Mar 25, 2025	Gemini-2.5-Pro w/ R	0.855	0.624	0.721	0.786	0.698	0.739	0.695	0.484	0.570
Mar 25, 2025	Gemini-2.5-Pro	0.837	0.599	0.698	0.704	0.610	0.654	0.616	0.417	0.497
Mar 25, 2025	Gemini-2.5-Flash	0.820	0.541	0.652	0.686	0.548	0.609	0.600	0.354	0.445
Mar 13, 2024	GPT-4o	0.822	0.585	0.684	0.611	0.565	0.587	0.529	0.370	0.436
Aug 08, 2025	Qwen-Plus	0.781	0.591	0.673	0.658	0.630	0.644	0.571	0.437	0.495
Aug 08, 2025	Qwen-Plus w/ R	0.801	0.574	0.669	0.737	0.673	0.704	0.629	0.448	0.523
Apr 18, 2024	LLaMA-3-70B-Instruct	0.707	0.582	0.638	0.550	0.493	0.520	0.436	0.356	0.392
Jun 6, 2024	GLM-4-Plus	0.763	0.583	0.661	0.583	0.556	0.569	0.488	0.377	0.426
Aug 07, 2025	Qwen3-32B	0.774	0.575	0.660	0.627	0.599	0.613	0.538	0.405	0.462
Jan 22, 2025	DeepSeek-R1 w/ R	0.739	0.581	0.651	0.636	0.595	0.615	0.530	0.417	0.467
Nov 6, 2024	DeepSeek-V3	0.749	0.519	0.613	0.625	0.544	0.582	0.519	0.362	0.427
Feb 3, 2023	Qwen3-8B	0.775	0.552	0.645	0.608	0.559	0.582	0.516	0.375	0.434
Jun 6, 2024	GLM-4-9B	0.760	0.527	0.622	0.502	0.438	0.468	0.410	0.278	0.331
Jun 6, 2024	GLM-4-Air	0.751	0.534	0.624	0.518	0.479	0.498	0.443	0.310	0.365
July 18, 2024	GPT-4o-mini	0.719	0.504	0.593	0.517	0.475	0.495	0.405	0.288	0.337
Apr 18, 2024	LLaMA-3-8B-Instruct	0.572	0.308	0.400	0.351	0.193	0.249	0.230	0.107	0.146