|
|
5a322e93a0
|
docs(research): 更新调研报告至v2.0反映NVIDIA选型
- 调研报告从RouteLLM BERT切换为NVIDIA多头分类器作为推荐方案
- 新增选型变更记录、复杂度评分公式、测试结果
- 更新tx402技术对比表和演进路线
- nvidia_router.py添加use_safetensors=True兼容transformers 4.57
|
2026-04-18 01:45:07 +08:00 |
|
|
|
a370061a96
|
refactor: 移除RouteLLM BERT路由模块
已切换到NVIDIA多头分类器,不再需要bert_router.py
|
2026-04-18 01:22:46 +08:00 |
|
|
|
59c03516e4
|
feat(router): 集成NVIDIA多头分类器实现3-tier智能路由
- 新增nvidia_router.py: 手动加载NVIDIA prompt-task-and-complexity-classifier模型
- DeBERTa-v3-base backbone + 8个分类头(task_type/creativity/reasoning/domain等)
- 综合多维度评分实现simple/medium/complex三级路由
- 映射: simple->qwen-flash, medium->qwen-plus, complex->qwen-max
- main.py切换到NVIDIA路由替代RouteLLM BERT二分类
- 移除LiteLLM依赖解决版本冲突,使用原生httpx调用
- 版本升级至v0.3.0
|
2026-04-18 01:21:31 +08:00 |
|
|
|
f9cc7973b9
|
feat: integrate RouteLLM BERT router for intelligent query classification
- 添加 transformers 和 torch 依赖
- 创建 bert_router.py 封装 RouteLLM BERT 分类器
- 新增 select_model_by_bert() 函数替代 token 长度路由
- BERT 输出映射: strong->qwen-max, weak->qwen-flash
- 保留 token 长度路由作为 fallback
|
2026-04-18 00:12:51 +08:00 |
|
|
|
88842457ea
|
docs: add LLM router open source research report
新增开源 LLM 路由模型调研报告:
- RouteLLM BERT (推荐方案)
- Arch-Router 1.5B
- 方案对比和实施建议
- 与 tx402.ai 技术对比
- 快速集成代码示例
|
2026-04-17 23:59:18 +08:00 |
|
|
|
ba63394e22
|
feat: add Qwen (DashScope) support as default provider
- 添加 Qwen flash/plus/max 三个等级模型
- 设置 Qwen 为默认路由策略
- 配置 DashScope API 接口
- 更新 .env.example 包含 Qwen API Key
|
2026-04-17 23:47:06 +08:00 |
|
|
|
4259478a37
|
feat: integrate LiteLLM for multi-provider support
使用 LiteLLM 统一接口支持多 LLM 提供商:
- 支持 OpenAI, Anthropic, Gemini, Ollama 等 100+ 提供商
- 统一模型配置 (MODEL_CONFIG)
- 新增 /models 端点列出可用模型
- 统计增加提供商分布
- 简化代码,移除 OpenAI 客户端初始化
|
2026-04-17 23:42:31 +08:00 |
|
|
|
2380dd4617
|
feat: add python-dotenv support for local .env files
- 添加 python-dotenv 依赖
- 在 config.py 中加载 .env 文件
- 添加 .env.example 示例文件
|
2026-04-17 23:35:37 +08:00 |
|
|
|
4a8de8925e
|
feat: implement MVP LLM router service
实现基于 token 长度的简单规则路由服务:
- FastAPI 基础服务 (/v1/chat/completions)
- 根据 token 长度自动选择模型 (gpt-3.5/gpt-4o-mini/gpt-4o)
- 成本追踪和统计 (/stats)
- 健康检查端点 (/health)
- 总计 224 行代码
|
2026-04-17 23:33:43 +08:00 |
|
|
|
55506952c1
|
docs: add X402 ecosystem technical architecture research report
新增X402生态竞品技术架构深度调研文档,包含:
- tx402.ai、Claw402等头部竞品技术架构分析
- 学术理论与生产实现对比
- 7篇顶会论文技术映射
- 技术选型建议与实施路线
|
2026-04-17 23:24:55 +08:00 |
|